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推荐 序 一 


我 的 第 一 部 智能 手机 是 多 普 达 565， 当 时 使 用 的 是 Windows Mobile 
操作 系统 ， 现 在 看 来 ， 不 管 是 操作 交互 ， 还 是 系统 的 整体 能 力 ， 都 与 
今天 的 智能 手机 有 着 天 壤 之 别 。 人 但是， 即便 是 那样 的 操作 系统 ， 也 已 
经 足够 让 当时 的 我 认识 到 一 个 真正 的 操作 系统 能 给 一 部 随身 设备 赋予 
的 强大 能 力 。 智 能 手机 后 来 这 十 几 年 的 发 展 还 是 超出 了 很 多 人 的 预 
料 ， 很 难 想象 ， 如 果 没 有 现在 的 高 速 数据 网 络 和 每 个 人 手头 的 这 个 小 
终端 ， 我 们 的 工作 和 生活 会 有 多 少 不 方 便 的 地 方 。 


生活 在 这 个 时 代 的 程序 员 是 足够 幸运 的 ， 信 息 化 的 无 限 渗透 也 意 
味 看 有 和 想法、 有 能 力 的 程序 员 对 人 们 生活 范围 的 影响 越 来 越 大 。 我 与 
很 多 资深 的 开发 人 员 都 有 过 交流 ， 基 本 上 能 把 这 些 人 分 成 两 类 。 一 类 
古 以 对 技术 本 映 的 钻研 为 目标 的 技术 人 员 ， 他 们 所 关注 的 是 架构 是 不 
古 足 够 先进 ， 可 扩展 性 如 何 ， 系 统 整 体 的 人 负载 能 力 ， 巡 到 错误 时 的 鲁 
棱 性 等 。 避 之， 他们 内 心 的 成 束 感 来 目 是 否 把 技术 做 到 了 极致 ， 同 行 
(或 者 自己 ) 看 到 的 时 候 ， 会 不 会 由 囊 地 说 这 东西 真 棒 。 还 有 一 类 技 
术 人 员 ， 他 们 的 成 就 感 来 目 目 己 的 工作 成 果 是 否 能 够 直接 对 使 用 者 产 
影响 。 相 对 技术 本 吴 的 挑战 ， 这 类 人 更 在 乎 目 己 所 做 的 东西 是 否 真 
正 被 吴 边 的 人 使 用 ， 使 用 者 用 到 目 己 作 品 时 的 感受 ， 以 及 是 否 真正 给 
使 用 者 和 社会 市 来 了 帮助 。 两 类 人 没有 融 低 之 分 ， 倒 有 点 像 理论 人 研究 
和 应 用 人 研 究 的 关系 ， 两 个 方 品 相辅相成 ， 彼 此 成 束 ， 彼 此 推动 。 


音 视 频 技术 的 发 展 正 好 处 在 理论 和 应 用 的 十 字 路 口 。 各 种 音 视 频 
技术 天 生 束 与 老百姓 的 生活 距离 很 近 ， 担 照 、 唱 歌 、 小 视频 、 瘦 脸 、 
美 颜 、 大 宴 音 ， 基 本 上 算是 大 众 手 机 里 最 章 用 的 一 些 功 能 了 。 这 些 功 
能 背后 的 技术 ， 也 会 因 用 户 的 需求 推动 而 快速 发 展 。 从 软件 到 人 硬件， 
从 各 种 人 脸 识 别 的 算法 到 越 来 越 强大 的 摄像 头 或 是 专用 的 DSP 心 片 ， 
摩尔 定律 在 这 个 细 分 领域 的 发 挥 可 以 算是 麻 篱 尽 致 了 ， 这 也 对 有 志 于 
在 这 个 领域 发 展 的 研发 人 员 提 出 了 更 高 的 要 求 : 一 方面 ， 要 能 沉 得 下 
去 ， 首 视频 相关 的 底层 技术 可 以 说 是 CS 领域 里 相当 难 哨 的 一 块 硬 骨 
头 ， 对 算法 、 编 码 甚 至 是 数学 基础 都 有 很 高 的 要 求 ; 另 一 方面 ， 还 妥 
能 经 党 抬 起 头 ， 不 只 十 要 跟 上 相关 领域 的 快速 发 展 ， 也 要 理解 和 挖掘 
用 户 的 真实 需求 ， 这 可 以 算 古 CS 领域 里 挑战 很 大 同时 成 束 感 也 很 大 的 
困难 模式 了 。 


本 书 的 作者 展 晓 凯 是 音 视 频 领 域 的 权威 专家 。 在 儿 年 间 的 持续 研 
完 中 ， 他 总 结 出 了 一 套 在 音 视频 领域 比较 系统 的 工程 实践 方法 ， 布 户 
这 些 总 结 能 够 帮助 到 对 相关 领域 感 兴趣 的 你 。 如 有 果 能 进一步 影响 更 多 
的 人 ， 将 是 对 本 书 作者 最 大 的 融 励 和 客 奖 。 

田 然 


2017 年 9 月 于 北京 


推荐 序 二 


随 着 智能 手机 的 出 现 ， 音 视频 传 感 右 比 以 往 任何 时 候 都 更 加 接近 
用 户 ， 可 以 说 ， 移 动 互 联网 时 代 其 实 也 是 音 视频 内 容 爆 炸 的 时 代 。 几 
乎 每 个 应 用 都 希望 能 尽 可 能 地 开局 用 户 所 有 的 权限 ， 让 用 户 把 自己 的 
每 时 每 刻 都 上 传 和 分 享 出 来 ， 于 是 即时 聊天 IM 几 乎 走 进 了 每 一 个 
App。 而 这 一 两 年 的 直播 大 战 的 背后 ， 更 是 让 直播 这 种 富 媒 体 几乎 变 
成 了 各 类 App 的 标 配 功能 ， 以 至 于 市 场 对 音 视 频 研 发 人 才 求 之 铬 渔 ， 
音 视 频 的 学 习 材 料 也 一 时 洛阳 纸 贵 ， 由 此 催生 出 来 的 各 种 大 小 公司 、 
大 小 产业 也 是 层出不穷 ,业内 对 音 视 频 处 理 的 知识 和 经 验 的 分 部 更 是 
如 火 如 茶 。 然 而 ， 音 视频 处 理 实在 是 一 门 艰深 的 学 问 ， 从 传 里 叶 变换 
到 差分 编码 等 各 种 理论 ， 再 到 充满 老 异 化 甚至 Bug 的 安 蛙 设备 的 现实 
应 用 环境 ， 既 要 在 国内 复杂 的 网 络 环境 下 尽力 满足 用 户 视听 观感 的 流 
畅 感 觉 ， 又 希望 让 小 小 的 移动 设备 物 尽 其 用 来 为 用 户 提供 最 极致 的 感 
官 体验 ， 而 这 些 灼 烧 无 数 程序 员 脑 细胞 的 问题 ， 实 在 不 是 一 两 篇 长 文 
就 可 以 简单 讲 清楚 的 。 若 要 让 一 个 几 无 基础 的 开发 者 能 够 系统 地 掌握 
| 
年 才 行 。 


我 认识 本 书 的 作者 展 晓 凯 已 经 五 年 多 了 ， 他 几乎 是 唱 吧 最 勤奋 的 
技术 人 员 ， 在 唱 吧 浩瀚 的 代码 库 里 ， 到 处 都 留 有 他 的 成 末 。 唱 吧 是 中 
国 颇具 影响 力 的 K 歌 产品 之 一 ， 从 2012 年 雄 跑 苹 果 榜 首 之 后 ， 就 再 也 
没有 离开 过 榜 单 ， 多 年 来 其 为 用 户 创 造 了 无 数 狐 奇 的 功能 和 体验 ， 从 
各 种 振奋 人 心 的 混 啊 ， 到 市 奏 感 到 人 的 目 动 说 唱 ， 所 有 的 这 些 功能 ， 
都 是 出 目 展 晓 凯 和 他 所 在 的 三 五 个 人 的 小 团队 之 手 。 而 以 唱 吧 的 用 户 
体 量 ， 他 们 目 然 也 遇 到 了 许多 问题 ， 从 各 种 花屏 、 黑 屏 、 哺 叫 、 日 品 
等 通用 技术 问题 ， 到 用 户 手 机 上 因 形 形 色 色 系 统 或 硬件 差异 而 产生 的 
稀奇 古怪 的 问题 ， 也 无 一 不 古 展 晓 凯 所 在 的 团队 未 个 去 解决 的 。 可 以 
说 ， 发 展 到 今天 ， 唱 吧 几 乎 拥有 业内 最 丰富 的 首 视 频 处 理 经 答 ， 而 这 
些 经 验 中 的 精华 ， 如 今 终 于 有 机 会 整理 付 样 ， 实 在 是 唱 吧 的 一 点 骄 
傲 ， 也 是 业内 同行 的 一 份 福 音 。 


虽然 与 展 晓 凯 一 起 并 肩 战 斗 了 四 五 年 ， 但 我 本 人 并 没有 太 多 机 会 
详细 参与 每 一 个 音 视频 问题 的 处 理 ， 如 今 通读 完 这 本 书 的 原稿 ， 我 深 
感 收获 不 小 。 本 书 是 展 晓 凯 花 费 了 无 数 心血 的 作品 ， 其 中 的 每 一 行 代 
码 每 一 个 实例 都 来 自 他 日 常 工作 中 实际 问题 的 总 结 。 本 书 也 许 不 是 市 


面 上 唯一 一 本 关于 首 视 频 处 理 的 着 作 ， 但 它 的 出 现 ， 足 以 为 市 场 市 来 
一 个 特有 的 完整 的 视角 ， 并 令 无 数 致力 于 打造 移动 设备 上 首 视 频 处 理 
完美 体验 的 程序 员 受 益 | 


侣 巴 
黄 全 能 


2017 年 9 月 于 北京 


为 什么 要 写 这 本 书 


整个 音 视频 领域 的 架构 以 及 开发 已 经 演进 了 很 长 时 间 ， 从 最 开始 
的 广电 领域 ， 到 PC 端的 音 视 频 领 域 ， 再 到 本 书 所 介绍 的 移动 端的 音 视 
频 领域 。 尤 其 在 这 几 年 中 ， 移 动 端 首钢 频 领 域 染 构 的 变化 古 巨 大 的 。 
在 移动 互联 网 的 发 展 热 湖 中 ， 我 有 笠 从 事 了 音 视 频 领 域 的 设计 与 开 
发 ， 并 且 就 职 于 最 时 尚 的 手机 KTV 一 一 唱 吧 ， 这 使 得 我 开发 出 来 的 东 
西 能 够 服务 于 几 亿 用 户 。 对 于 音 视 频 的 移动 端的 应 用 ， 不 论 是 开发 还 
征 使 用 ， 在 近 两 年 都 达到 了 一 个 高 峰 ， 而 作为 一 名 工程 师 ， 如 何 高 效 
地 开发 出 一 个 音 视 频 App， 有 是 一 件 非常 困难 的 事情 ， 特 别 是 对 于 不 太 
了 解 音 视频 概念 的 工程 师 。 我 从 事 软 件 开 发 已 有 7 年 多 的 时 间 ， 接 触 音 
视频 领域 也 已 经 有 5 年 多 ， 在 整个 开发 过 程 中 ， 不 同 的 时 间 段 会 过 到 不 
同 的 挑战 ， 尤 其 是 在 最 开始 涉足 首 视 频 领 域 的 时 候 ， 真 可 谓 举 步 维 
艰 。 首 先 ， 对 于 音 视频 的 基础 概念 不 是 特别 清楚 ， 再 者 在 工作 中 边 学 
边 做 ， 很 难 对 整个 音 视频 领域 有 一 个 全 面 的 了 解 ， 并 且 市 面 上 没有 相 
天 成 熟 的 货 料 从 更 高 的 层次 来 介绍 音 视 频 领 域 在 移动 端的 演进 与 发 
展 。 这 几 年 的 设计 实战 与 开发 经 验 ， 以 及 融 新 人 入 门 的 众多 感触 ， 让 
我 有 了 写 这 本 书 的 动力 ， 同 时 也 形成 了 这 本 书 的 核心 内 容 ， 我 希望 通 
过 本 书 可 以 帮助 更 多 想 要 在 移动 端 音 视频 领域 实现 目 己 想法 的 工程 
师 ， 让 大 家 可 以 顺利 地 建立 起 自己 的 音 视频 App。 我 非常 希望 能 为 刚 
入 门 的 读者 或 者 过 到 困难 的 读者 提供 帮助 ， 斋 望 大 家 可 以 理 受 整个 开 
发 的 过 程 ， 至 受 目 己 开发 的 产品 为 人 们 的 生活 带 来 便利 的 成 整 感 。 男 
外 ， 从 整个 音 视 频 开发 领域 来 讲 ， 我 也 十 分 希望 能 够 通过 本 书页 献 出 
目 己 的 绵薄 之 力 。 


读者 对 象 


产品 经 理 ， 这 部 分 读者 可 以 从 中 了 解 在 移动 端 进行 音 视频 开发 会 
遇 到 的 很 多 问题 以 及 对 应 的 优化 策略 ， 例 如 : 如 何 通过 音 视频 的 统计 
数据 为 产品 提供 更 加 流畅 的 策略 〈 祝 频 观 看 的 秒 开 、 直 播 推 流 的 流畅 
度 、 视 频 上 传 的 成 功率 等 ) 。 


项目 经 理 ， 这 部 分 读者 可 以 了 解 很 多 时 下 流行 的 名 词 与 概念 ， 不 
会 因为 儿 个 专业 名 词 束 让 目 己 不 知 所 措 ， 并 且 有 助 于 更 好 地 评估 音 
视频 项 目 开发 中 的 风险 与 进度 。 


测试 人 员 ， 这 部 分 读者 可 以 学 习 在 音 视频 App 中 由 于 处 理 过 程 不 
同 而 导致 的 瓶颈 问题 ， 书 中 也 提 到 了 一 些 自动 化 测试 相关 的 命令 以 及 
人 
TT 


-架构 师 与 工程 师 ， 这 部 分 读者 只 需要 一 点 移动 开发 经 验 束 可 以 阅 
读本 书 了 。 当 然 如 采 你 已 经 是 一 个 高 级 移动 开发 工程 师 或 者 架构 师 ， 
那么 读 起 本 书 来 将 更 加 游 力 有 余 。 表 进一步， 如 果 你 已 经 是 移动 领域 
的 音 视 频 开 发 工程 拖 了 ， 那 么 恭喜 你 ， 我 们 之 间 将 会 有 一 场 关 于 技术 
领域 内 部 的 对 话 。 


:开设 相关 课程 的 高 等 院 校 。 


如 何 阅 读本 书 


为 了 避 倪 说 教 式 的 讲解 市 来 枯燥 乏味 的 阅读 体 粕 ， 本 书 给 出 了 大 
量 的 实例 及 生产 环境 下 的 案例 。 本 书 可 分 为 四 个 部 分 : 第 一 部 分 是 入 
|]， 从 理论 基础 开始 讲解 ， 最 终 会 产生 两 个 实践 项 目 ， 第 二 部 分 是 提 
高 ， 基 于 第 一 部 分 的 项 目 添 加 特效 ， 形 成 一 个 完整 的 多 媒体 项 目 ;， 第 
三 部 分 十 扩 展 ， 结 合 当 下 比较 流行 的 直播 场景 进行 实际 案例 分 析 ， 第 
四 部 分 是 工具 ， 介 绍 当 下 大 部 分 可 以 提高 开发 以 及 测试 效率 的 工具 。 
下 面 是 各 个 章 市 的 基本 介绍 。 


第 1 革 ， 介 绍 音 视频 的 基础 概念 ， 其 中 包括 音 视频 的 基础 数据 格 
式 、 编 码 后 的 数据 格式 以 及 不 同 格式 之 间 的 相互 转换 等 。 


第 2 章 ， 从 零 开 始 讲解 如 何 搭建 一 个 iOS 项 目 和 一 个 Android 项 目 ， 
并 且 添 加 C++ 支 持 ， 因 为 在 音 视频 领域 的 开发 中 ， 有 相当 一 部 分 的 代 
码 需要 用 C++ 来 编写 ， 这 样 就 可 以 做 到 两 个 平台 (Android 和 iOS 平 
台 ) 共用 一 套 代 码 仓库 ， 以 提升 开发 效率 。 然 后 讲解 交叉 编译 ， 因 为 
在 音 视 频 开 发 过 程 中 会 用 到 很 多 第 三 方 开源 库 ， 如 果 将 这 些 库 编译 到 
我 们 的 项 目 中 ， 努 必 要 进行 交叉 编译 ， 因 此 本 章 会 重点 讲解 这 些 内 
谷 oO 


第 3 章 ， 探 讨 FFmpeg 开 源 库 。 对 于 音 视 频 开 发 来 讲 ，FFmpeg 开 源 
库 是 众所周知 也 是 普遍 使 用 的 。 本 章 首 先 从 编译 开始 ， 接 着 是 命令 行 
使 用 ， 再 到 源码 结构 ， 最 后 是 API 调 用 ， 以 层 层 递 进 的 方式 对 FFmpeg 
开源 库 展开 介绍 。 


第 4 草 ， 讲 解 如 何 利 用 各 目 平 台 的 API 进 行 声 首 与 画面 的 渔 染 以 及 
解码 ， 对 于 画面 的 泻 染 ， 推 荐 使 用 OpenGL ES， 两 个 平台 可 以 使 用 同 
= 公信 库 避 


第 5 草 ， 实 现 一 款 视 频 播放 器 。 有 了 前 四 革 的 基础 ， 我 们 已 经 完全 
可 以 构建 起 一 个 视频 播放 右 了 。 本 书 最 大 的 特点 就 是 经 过 儿 半 基础 知 
识 的 学 习 立 即 开 始 一 个 项 目的 实践 ， 通 过 本 章 的 视频 播放 各 项 目 ， 我 
们 将 会 熟悉 播放 器 是 如 何 工作 的 。 


第 6 革 ， 重 点 介绍 首 视 频 的 采集 与 编码 右 。 特 别 是 硬件 编 解 码 占 在 
各 个 平台 上 的 使 用 ， 使 得 应 用 能 够 更 高 效 〈 耗 电 更 少 、 发 热 更 少 、 界 
面 更 流畅 ) 地 运行 在 用 户 的 手机 上 。 


第 7 章 ， 继 续 开 发 一 个 视频 录制 的 新 项 目 ， 该 项 目 可 以 使 我 们 更 加 
熟悉 首 视 频 应 用 在 各 个 平台 下 的 实现 。 


第 8 章 ， 讲 解 如 何 处 理 音频 流 。 毕 竟 让 别人 听 采 集 出 来 的 干 声 是 很 
不 礼 够 的， 本 章 将 利用 各 种 特效 来 美化 采集 的 声音 。 


第 9 章 ， 讲 解 如 何 处 理 视频 流 ， 使 视频 中 的 颜 值 变 得 更 高 ， 毕 竞 爱 
美 之 心 人 乡 有 之 。 

“第 10 章 ， 在 第 7 章 的 项 目 基 础 之 上 ， 增 加 第 8 章 的 音频 特效 和 第 9 章 
的 视频 特效 ， 从 而 构建 一 个 实际 生产 过 程 中 的 多 媒体 应 用 。 


第 11 草 ， 继 续 以 项 目 作 为 驱动 ， 详 细 讲 解 如 何 基于 之 前 学 习 的 内 
容 构建 一 个 直播 的 应 用 ， 重 点 介绍 推演 以 及 拉 流 端 ， 同 时 还 涉及 礼物 
特效 、 聊 天 以 及 第 三 方 云 服务 的 内 容 。 


第 12 草 ， 由 于 直播 应 用 很 难 用 一 章 的 篇 幅 讲 完 ， 所 以 本 章 针 对 一 
些 核 心 的 处 理 进 行 讲 解 。 


第 13 章 ， 介 绍 常用 的 工具 和 排 错 方法 ， 说 明 在 日 常 开发 中 如 何 更 
有 效率 地 解决 问题 ， 本 章 内 容 并 不 仅 限于 音 视频 的 开发 领域 。 


附录 给 出 一 些 参考 内 容 。 
勘误 和 文 持 


由 于 作者 水 平 有 限 ， 编 写 时 间 仓 促 ， 书 中 难免 会 出 现 一 些 错误 或 
者 不 准确 的 地 方 ， 蝴 请 读者 批评 指正 。 为 此 ， 我 特意 创建 了 一 个 在 线 
支持 与 应 急 方 案 的 二 级 站 点 http://music-video.cn。 你 可 以 将 书 中 的 错误 
发 布 在 Bug 勘 识 表 页 面 中 ， 同 时 如 果 你 过 到 问题 ， 也 可 以 访问 Q&A 页 
面 ， 我 将 尽量 在 线 上 为 你 提供 最 满意 的 解答 。 书 中 的 全 部 源 代码 文件 
都 将 发 布 在 这 个 网 站 上 ， 我 也 会 及 时 地 进行 相应 的 功能 更 新 。 如 果 你 
有 更 多 的 宝贵 意见 ， 也 欢迎 发 送 邮件 至 我 的 邮箱 
zhanxiaokai2008@126.com， 我 很 期 待 昕 到 你 们 的 真 吏 反馈 。 


致谢 


感谢 唱 吧 与 唱 吧 的 每 一 位 同事 ， 是 这 个 公司 让 我 的 职业 生涯 发 展 
到 丁 人 大， 世 是 这 个 公司 让 我 能 在 兰 视 频 领域 过 I 今天 的 成 束 ， 可 以 
说 没有 唱 吧 就 不 会 有 这 本 书 的 问世 。 


感谢 唱 吧 的 每 一 位 用 户 ， 感 谢 你 们 对 唱 吧 的 长 期 文 择 和 页 献 ， 没 
有 你 们 吏 不 会 有 唱 吧 的 今天 ， 也 束 不 会 有 这 本 书 的 问世 。 


感谢 我 的 老 姿 ， 感 谢 你 对 我 工作 以 及 写作 的 支持 ， 是 你 在 我 背后 
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感谢 机 械 工 业 出 版 社 华 章 公 司 的 编辑 Lisa 老 师 ， 感 谢 你 的 胸 力 和 
远见 ， 在 这 一 年 多 的 时 间 中 始终 文 持 我 的 写作 ， 正 古 你 的 辟 励 和 帮助 
引导 我 顺利 完成 全 部 书稿 


感谢 互联 网 ， 我 们 在 互联 网 上 迈 出 的 任何 一 步 都 是 人 类 历史 回 前 
诅 进 有 一 步 ， 感谢 众多 互联 网 人 的 对 理工 作 ， 为 我 们 创造 了 这 么 多 机 
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谨 以 此 书 献 给 我 最 亲爱 的 家 人 、 同 事 ， 以 及 众多 互联 网 从 业者 。 
展 晓 凯 
2017 年 9 月 于 北京 


第 1 章 ” 音 视频 基础 概念 


为 了 避免 梧 燥 的 说 教 式 讲解 ， 本 章 将 结合 示意 图 来 介绍 音频 与 视 
频 的 基础 概念 ， 对 于 本 章 的 学 习 ， 不 需要 使 用 任何 开发 环境 。 人 研 守 数 
字 首 频 时 ， 必 须要 对 声学 现象 有 一 定 的 了 解 ， 大 只 人 研究 数字 首 频 而 忽 
略 了 声学 现象 ， 那 束 本 末 倒 置 了 ， 因 为首 频 技 术 古 为 了 记 杂 、 存 储 和 
回放 声学 现象 才 发 明 的 ， 所 以 多 了 解 声学 现象 对 学 习 数 字音 频 是 有 很 
大 帮助 的 。 声 音 产 生 于 目 然 界 ， 早 在 没有 任何 科学 研究 的 时 候 ， 束 已 
经 存在 声音 了 ， 并 且 各 种 声音 还 可 以 组 成 动听 的 音乐 ; 当 人 类 有 了 记 
了 永 以 及 存储 声音 的 能 力 之 后 ， 束 迎 来 了 模拟 信号 到 数字 信和 号 的 转换 ， 
所 以 本 草 首先 会 介绍 如 何 记录 以 及 存储 声音 。 


相 比 声音 ， 视 频 (画面 ) 更 易于 观察 ， 本 章 将 从 图 像 的 物理 现象 
开始 讲解 ， 然 后 讨论 一 帧 帧 的 画面 是 如 何 描述 的 ， 以 及 视频 是 如 何 被 
记录 和 存储 到 设备 中 的 。 


学 习 完 本 章 之 后 ， 相 信 大 家 对 耳 东 能 够 直接 听 到 的 声音 ， 眼 睛 能 
够 直接 看 到 的 图 像 会 有 更 深入 的 认 知 。 


1.1 声音 的 物理 性 质 
1.1.1 声音 是 波 


说 到 声音 ， 爱 好 音乐 的 人 衣 移 可 能 会 想到 优美 的 音乐 或 者 是 劲爆 
十 足 的 舞曲 ， 这 些 音乐 只 年 声音 的 一 种 。 音 乐 是 由 乐 磊 弹 帮 或 者 歌手 
演唱 而 产生 的 ， 那 么 声音 是 如 何 产生 的 呢 ? 回想 一 下 中 学 物理 课本 上 
的 定义 一 一 声音 是 由 物体 振动 而 产生 的 〈 如 图 1-1 所 示 ) 。 


图 1-1 


如 图 1-1 所 示 ， 当 小 球 撞击 到 首义 的 时 候 ， 音 义 会 发 生 振动 ， 对 周 
围 的 空气 产生 挤 压 ， 从 而 产生 声音 。 声 音 是 一 种 压力 波 ， 当 演奏 乐 
器 、 哲 打 一 局 门 或 者 融 击 桌面 时 ， 它 们 的 振动 都 会 引起 空气 有 市 奏 的 
振动 ， 使 周围 的 空气 产生 玻 密 变化 ， 形 成 芷 密 相 间 的 纵波 (可 以 理解 


为 石头 落 入 水 中 激 起 的 波纹 ) ， 由 此 就 产生 了 声波 ， 这 种 现象 会 一 直 
延续 到 振动 消失 为 止 。 


1.1.2 ”声波 的 三 要 素 


声波 的 三 有 要素 是 频率 、 振 幅 和 波形 ， 频 率 代表 音阶 的 高 低 ， 振 幅 
代表 啊 度 ， 波 形 代表 音色 。 


频率 〈 过 堆 率 ) 越 高 ， 波 长 束 越 短 。 低 频 声 咽 的 波长 则 较 长 ， 所 
以 其 可 以 更 容易 地 绕 过 障碍 物 ， 因 此 能 量 衰减 就 小 ， 声 音 就 会 传 得 
远 ， 反 之 则 会 得 到 完全 相反 的 络 论 。 


啊 度 其 实 就 古 能 量 大 小 的 反映 ， 用 不 同 的 力度 融 击 桌子 ， 声 音 的 
大 小 势必 也 会 不 同 。 在 生活 中 ， 分 贝 常 用 于 描述 响 度 的 大 小 。 声 音 超 
过 一 定 的 分 贝 ， 人 类 的 耳 示 吏 会 受 不 了 。 


音色 其 实 也 不 难 理解 ， 在 同样 的 音调 (频率 ) 和 响 度 (振幅 ) 
下 ， 钢 芍 和 小 所 和 苔 的 声音 听 起 来 是 完全 不 相同 的 ， 因 为 它们 的 音色 不 
同 。 波 的 形状 决定 了 其 所 代表 声音 的 音色 ， 钢 琴 和 人 小 提 和 琴 的 音色 不 同 
就 是 因为 它们 的 介质 所 产生 的 波形 不 同 。 


人 类 耳 朱 的 听力 有 一 个 频率 范围 ， 大 约 是 20Hz~20kHz， 不 过 ， 即 
使 是 在 这 个 频率 范围 内 ， 不 同 的 频率 ， 听 力 的 感觉 也 会 不 一 样 ， 业 界 
非常 著名 的 等 啊 曲 线 ， 就 是 用 来 描述 等 啊 条 件 下 声 压 级 与 声波 频率 关 
系 的 ， 如 图 1-2 所 示 。 


等 喇 有 曲线 


i i 
喘 度 级 〈( 方 ) 


声 压 级 (dB) 


20 50 100 200 S00 Ik 2k Sk 10k 20k 
频 这 (Hz) 


图 1-2 


从 图 1-2 中 可 以 看 出 ， 人 耳 对 3~4kHz 频 率 范围 内 的 声音 比较 敏 
感 ， 而 对 于 较 低 或 较 高 频率 的 声音 ， 敏 感度 就 会 有 所 减弱 ;在 声 压 级 
较 低 时 ， 听 觉 的 频率 特性 会 很 不 均匀 ;而 在 声 压 级 较 高 时 ， 上 听觉 的 频 
率 符 性 会 变 得 较为 均 习 。 频 率 范 围 较 宽 的 音乐 ， 其 声讨 以 80~90dB 为 
最 佳 ， 超 过 90dB 将 会 损害 人 耳 〈105dB 为 人 耳 极 限 ) 。 


1.13 ， 巨 守 四 人 民 全 个 碳 


吉他 是 通过 演奏 者 拨 动 琴 摔 来 发 出 声音 的 ， 鼓 是 通过 鼓 权 敲 击 鼓 
面 发 出 声音 的 ， 这 些 声 音 的 产生 都 离 不 开 振动 ， 就 连 我 们 说 话 也 是 因 
为 声带 振动 而 产生 声音 的 。 既 然 都 是 振动 产生 的 声音 ， 那 为 什么 吉 
他 、 鼓 和 人 声 听 起 来 相差 这 么 大 呢 ? 这 是 因为 介质 不 同 。 我 们 的 声带 
振动 发 出 声音 之 后 ， 经 过 口腔 、 颅 腔 等 局 部 区 域 的 反射 ， 再 经 过 空气 
传播 到 别人 的 耳 打 里， 这 就 是 我 们 说 的 话 被 别人 听 到 的 过 程 ， 其 中 包 
括 了 最 初 的 发 声 介质 与 颅 腔 、 口 腔 ， 还 有 中 间 的 传播 介质 等 。 事 实 
上 ， 声 音 的 传播 介质 很 广 ， 它 可 以 通过 空气 、 液 体 和 固体 进行 传播 ; 
而 且 介质 不 同 ， 传 播 的 速度 也 不 同 ， 比 如 ， 声 音 在 空气 中 的 传播 速度 
为 340m/s， 在 薰 贸 水 中 的 传播 速度 为 1497m/s， 而 在 铁 棒 中 的 传播 速度 
则 可 以 高 达 5200m/s; 不 过 ， 声 音 在 真空 中 是 无 法 传播 的 。 


生活 小 贴 士 


在 日 第 生活 中 ， 我 们 也 会 利用 对 声音 的 研究 去 做 一 些 使 我 们 更 舒 
适 的 事情 ， 比 如 吸音 棉 和 隔音 槐 ， 这 两 种 常见 产品 的 发 明 隋 是 通过 研 
完 声 音 在 传播 中 的 特性 而 研发 出 来 的 。 


吸音 主要 起 解决 声音 反射 而 产生 的 嘲 杂 感 ， 吸 音 材料 可 以 衰减 入 
冉 首 源 的 反射 能 量 ， 从 而 达到 对 原 有 声 源 的 保 真 效果 ， 比 如 录 首 棚 里 
面 的 墙壁 上 束 会 使 用 吸音 棉 材料 。 


阳 首 主要 是 解决 声音 的 透射 而 降低 主体 空间 内 的 吵 曾 感 ， 阳 首 棉 
材料 可 以 惨 减 入 射 首 产 的 透射 能 量 ， 从 而 达到 主体 空间 的 安静 状态 ， 
比如 KTV 里 面 的 墙壁 上 束 会 安 洲 隔 首 棉 材料 。 


111 本 回填 


当 我 们 在 高 山 或 空旷 地 市 高 声 大 喊 的 时 候 ， 经 常会 听 到 回声 
(echo) 。 之 所 以 会 有 回声 是 因为 声音 在 传播 过 程 中 遇 到 障碍 物 会 反 
弹 回来 ， 再 次 被 我 们 听 到 (如 图 1-3 所 示 ) 。 


但 是 ， 铬 两 种 声音 传 到 我 们 的 耳 打 里 的 时 差 小 于 80 写 秒 ， 我 们 整 
无 法 区 分 开 这 两 种 声 首 了 ， 其 实在 日 常生 活 中 ， 人 和 耳 也 在 收集 回声 ， 
只 不 过 由 于 嗜 杂 的 外 界 环境 以 及 回声 的 分 贝 (衡量 声音 能 量 值 大 小 的 
单位 比较 低 ， 所 以 我 们 的 耳 条 分 辨 不 出 这 样 的 声音 ， 或 者 说 是 大 脑 
能 接收 到 但 分 辨 不 出 。 


目 然 界 中 有 光 能 、 水 能 ， 生 活 中 有 机 械 能 、 电 能 ， 其 实 声音 也 可 
以 产生 能 量 ， 例 如 两 个 频率 相同 的 物体 ， 蔽 击 其 中 一 个 物体 时 另 一 个 
物体 也 会 振动 发 声 如 图 1-4 所 示 ) 。 


图 1-4 


这 种 现象 称 为 共 吗 ， 共 鸣 证 明了 声音 传播 可 以 市 动 男 一 个 物体 振 
动 ， 也 束 古 说 ， 声 首 的 传播 过 程 也 是 一 种 能 量 的 传播 过 程 。 


1.2 ”数字 音频 


1.1 广 主要 介绍 了 声音 的 物理 现象 以 及 声音 中 常见 的 概念 ， 也 为 后 
学 的 讲解 流 一 了 术语 ， 从 本 市 开始 ， 我 们 将 进入 数 子 首 频 概念 的 介 


一 口 


为 了 将 模拟 信号 数字 化 ， 本 市 将 分 3 个 概念 对 数字 音频 进行 讲解 ， 
分 别 是 采样 、 量 化 和 编码 。 首 先 要 对 模拟 信和 号 进行 采样 ， 所 谓 采 样 就 
是 在 时 间 轴 上 对 信和 号 进行 数字 化 。 根 据 奈 奎 斯 特定 理 (也 称 为 采样 定 
理 ) ， 按 比 声音 最 高 频率 高 2 倍 以 上 的 频率 对 声音 进行 采样 (也 称 为 
AD 转换 ) ，1.1 节 中 提 到 过 ， 对 于 高 质量 的 音频 信号 ， 其 频率 范围 

(人 耳 能 够 听 到 的 频率 范围 ) 是 20Hz~-20kHz， 所 以 采样 频率 一 般 为 
44.1kHz， 这 样 就 可 以 保证 采样 声音 达到 20kHz 也 能 被 数字 化 ， 从 而 使 
得 经 过 数字 化 处 理 之 后 ， 人 耳 听 到 的 声音 质量 不 会 被 降低 。 而 所 谓 的 
44.1kHz 就 是 代表 1 秒 会 采样 44100 次 (如 图 1-5 所 示 ) 。 


那么 ， 具 体 的 每 个 采样 又 该 如 何 表示 呢 ? 这 就 涉及 将 要 讲解 的 第 
二 个 概念 ， 量 化。 量化 是 指 在 幅度 轴 上 对 信号 进行 数字 化 ， 比 如 用 16 
比特 的 二 进 制 信号 来 表示 声音 的 一 个 采样 ， 而 16 比 特 (一 个 short) 所 
表示 的 范围 是 [-32768，32767]， 共 有 65536 个 可 能 取 值 ， 因 此 最 终 模拟 
的 音频 信号 在 幅度 上 也 分 为 了 65536 层 (如 图 1-6 所 示 ) 


ui (1) 


既然 每 一 个 量化 都 是 一 个 采样 ， 那 么 这 么 多 的 采样 该 如 何 进 行 存 
储 呢 ? 这 束 涉 及 将 要 讲解 的 第 三 个 概念 ， 编码 。 所 谓 编码 ， 束 是 按照 
I 比如 顺序 存储 或 压缩 存 


这 里 面 涉 及 了 很 多 种 格式 ， 通 党 所 说 的 音频 的 裸 数 据 格式 就 是 脉 

冲 编码 调制 (Pulse Code Modulation，PCM) 数据 。 描 述 一 段 PCM 数 
据 一 般 需 要 以 下 几 个 概念 : 量化 格式 (sampleFormat) `、 采样 率 
(sampleRate) 、 声 道 数 (channel) 。 以 CD 的 音质 为 例 : 量化 格式 
(有 的 地 方 描述 为 位 深度 ) 为 16 比 特 (2 字 节 ) ， 采 样 率 为 44100， 声 
道 数 为 2， 这 些 信息 吏 描 述 了 CD 的 音质 。 而 对 于 声音 格式 ， 还 有 一 个 
概念 用 来 描述 它 的 大 小 ， 称 为 数据 比特 率 ， 即 1 秒 时 间 内 的 比特 数目 ， 
它 用 于 衡量 音频 数据 单位 时 间 内 的 容量 大 小 。 而 对 于 CD 音质 的 数据 ， 
比特 率 为 多 少 昵 ? 计算 如 下 : 


44100 * 16 * 2 = 1378.125kbps 


那么 在 1 分 钟 里 ， 这 类 CD 音质 的 数据 需要 占据 多 大 的 存储 空间 
呢 ? 计算 如 下 : 


1378.125 * 60 / 8 / 1024 = 10.09MB 


当然 ， 如 果 sampleFormat 更 加 精确 (比如 用 4 字 节 来 描述 一 个 采 
样 ) ， 或 者 sampleRate 更 加 密集 (比如 48kHz 的 采样 率 ) ， 那 么 所 占 的 
存储 空间 就 会 更 大 ， 同 时 能 够 描述 的 声音 细 世 就 会 越 精确 。 存 储 的 这 


段 二 进 制 数据 即 表示 将 模拟 信号 转换 为 数字 信号 了 ， 以 后 就 可 以 对 这 
段 二 进 制 数据 进行 存储 、 播 放 、 复 制 ， 或 者 进行 其 他 任何 操作 。 


麦 交 风 是 如 何 采 集 声音 的 


麦 苑 风 里 面 有 一 层 兢 膜 ， 非 常 薄 而 且 十 分 敏感 。1.1T 中 介绍 过 ， 
声音 其 实 征 一 种 纵波 ， 会 压缩 空气 也 会 压缩 这 层 碳 膜 ， 碳 膜 在 受到 挤 
压 时 也 会 发 出 振动 ， 在 碳 膜 的 下 方 惑 是 一 个 电极 ， 碳 膜 在 振动 的 时 候 
会 接触 电极 ， 接 触 时 间 的 长 短 和 频率 与 声波 的 振动 幅度 和 频率 有 关 ， 
这 样 束 完 成 了 声音 信和 与 到 电信 和 号 的 转换 。 之 后 再 经 过 放大 电路 处 理 ， 
束 可 以 实施 后 面 的 采样 量化 处 理 了 。 


前 面 提 到 过 分 贝 ， 那么 什么 是 分 贝 昵 ? 分 贝 是 用 来 表示 声音 强度 
的 单位 。 日 常生 活 中 听 到 的 声音 ， 奉 以 声 压 值 来 表示 ， 由 于 其 变化 范 
围 非常 大 ， 可 以 达到 六 个 数量 级 以 上 ， 同 时 由 于 我 们 的 耳 朱 对 声 首 信 
号 强 弱 刺激 的 反应 不 是 线性 的 (1.1 节 中 提 到 过 等 啊 曲 线 ) ， 而 是 呈 对 
数 比例 关系 ， 所 以 引入 分 贝 的 概念 来 表达 声学 量 值 。 所 谓 分贝 是 指 两 

到 20) ， 


N= 10 * 1g (A1 / Ag) 


分 贝 符号 为 <dB”， 它 是 无 量 纲 的 。 式 中 A0 是 基准 量 (或 参考 
量 ) ，A1 是 被 量度 量 。 


1.3 ”音频 编码 


1.2 广 中 提 到 了 CD 音质 的 数据 采样 格式 ， 曾 计算 出 每 分 钟 需 要 的 
存储 空间 约 为 10.1MB， 如 果 仅 仅 是 将 其 存放 在 存储 设备 (光盘 、 硬 
盘 ) 中 ， 可 能 是 可 以 接受 的 ,但 是 若 要 在 网 络 中 实时 在 线 传播 的 话 ， 
那么 这 个 数据 量 可 能 就 太 大 了 ， 所 以 必须 对 其 进行 压缩 编码 。 压 缩编 
码 的 基本 指标 之 一 就 是 压缩 比 ， 压 缩 比 通常 小 于 1 (否则 就 没有 必要 去 
做 压缩 ， 因 为 压缩 就 是 要 减 小 数据 容量 ) 。 压 缩 算法 包括 有 损 压 缩 和 
无 损 压 缩 。 无 损 压 缩 是 指 解压 后 的 数据 可 以 完全 复原 。 在 常用 的 压缩 
格式 中 ， 用 得 较 多 的 是 有 损 压缩 ， 有 损 压 缩 是 指 解压 后 的 数据 不 能 完 
全 复原 ， 会 丢失 一 部 分 信息 ， 压 缩 比 越 小 ， 丢 失 的 信息 就 越 多 ， 信 号 
还 原 后 的 失真 整 会 越 大 。 根 据 不 同 的 应 用 场景 (包括 存储 设备 、 传 输 
网 络 环境 、 播 放 设备 等 ) ， 可 以 选用 不 同 的 压缩 编码 算法 ， 如 PCM 、 
WAV、AAC、MP3、Ogg 等 。 


压缩 编码 的 原理 实际 上 有 是 压缩 掉 见 余 信 号 ， 隐 余 信 和 号 是 指 不 能 被 
人 了 丁 感知 到 的 信号 ， 包 含 人 耳 听 和 觉 范围 之 外 的 音频 信号 以 及 被 搬 蔽 摊 
的 音频 信号 等 。 人 耳 听 和 觉 范 围 之 外 的 音频 信号 在 1.2 世 中 已 经 提 到 过 ， 
所 以 在 此 不 再 费 述 。 而 被 掩蔽 掉 的 音频 信号 则 主要 是 因为 人 耳 的 掩蔽 
效应 ， 主 要 表现 为 频 域 掩蔽 效应 与 时 域 掩 熙 效应 ， 无 论 是 在 时 域 还 是 
IE 
了 理 。 


下 面 介绍 儿 种 常用 的 压缩 编码 格式 。 


(1) WAV 编 码 


PCM (脉冲 编码 调制 ) 是 Pulse Code Modulation 的 缩写 。 前 面 已 
经 介绍 过 PCM 大 致 的 工作 流程 ， 而 WAV 编 码 的 一 种 实现 (有 多 种 实现 
方式 ， 但 是 都 不 会 进行 压缩 操作 ) 就 是 在 PCM 数 据 格式 的 前 面 加 上 44 
字 记 ， 分 别 用 来 描述 PCM 的 采样 率 、 声 道 数 、 数 据 格式 等 信息 。 


特点 : 音质 非常 好 ， 大 量 软件 都 文 持 。 
适用 场合 : 多 媒体 开发 的 中 间 文 件 、 保 存 音乐 和 首 效 素材 。 


(2) MP3 编 码 


MP3 具 有 不 错 的 压缩 比 ， 使 用 LAME 编 码 《MP3 编 码 格式 的 一 种 
实现 ) 的 中 高 码 率 的 MP3 文 件 ， 听 感 上 非常 接近 源 WAV 文 件 ， 当 然 在 


不 同 的 应 用 场景 下 ， 应 该 调整 合适 的 参数 以 达到 最 好 的 效果 。 


特点: 音质 在 128Kbiys 以 上 表现 还 不 错 ， 讨 缩 比比 较 高 ， 大 量 软 
件 和 硬件 都 文 持 ， 兼 容 性 好 。 


适用 场合 : 高 比特 率 下 对 兼容 性 有 要 求 的 音乐 欣赏 。 
(3) AAC 编 码 


AAC 是 新 一 代 的 音频 有 损 压 缩 技 术 ， 它 通过 一 些 附 加 的 编码 技术 
(比如 PS、SBR 等 ) ， 衍 生出 了 LC-AAC、HE-AAC、HE-AAC v2 三 种 
主要 的 编码 格式 。LC-AAC 是 比较 传统 的 AAC， 相 对 而 言 ， 其 主要 应 
用 于 中 高 码 率 场 景 的 编码 (>80Kbit/s) ; HE-AAC (相当 于 
AAC+SBR) 主要 应 用 于 中 低 码 率 场景 的 编码 (<80Kbit/s) ; 而 新 近 
推出 的 HE-AAC v2 (相当 于 AAC+SBR+PS) 主要 应 用 于 低 码 率 场 景 的 
编码 (<48Kbit/s) 。 事 实 上 大 部 分 编码 器 都 设置 为 <48Kbit/s 自 动 启用 
PS 技术 ， 而 >48Kbit/s 则 不 加 PS， 相 当 于 普通 的 HE-AAC 。 


特点 ， 在 小 于 128Kbits 的 码 率 下 表现 优异 ， 并 且 多 用 于 视频 中 的 
音频 编码 。 

适用 场合 ，128Kbits 以 下 的 音频 编码 ， 多 用 于 视频 中 音频 轨 的 编 
码 。 


(4) Ogg 编 码 


Ogg 是 一 种 非常 有 潜力 的 编码 ， 在 各 种 码 率 下 都 有 比较 优秀 的 表 
现 ， 尤 其 是 在 中 低 码 率 场景 下 。Ogg 除 了 音质 好 之 外 ， 还 是 完全 人 免费 
的 ， 这 为 Ogg 获 得 更 多 的 支持 打 好 了 基础 。Ogg 有 着 非常 出 色 的 算法 ， 
可 以 用 更 小 的 码 率 达到 更 好 的 首 质 ，128Kbit/s 的 Ogg 比 192Kbit/s 其 至 
更 高 码 率 的 MP3 还 要 出 色 。 但 目前 因为 还 没有 媒体 服务 软件 的 支持 ， 
因此 基于 Ogg 的 数字 广播 还 无 法 实现 。Ogg 目 前 受 支 持 的 情况 还 不 够 
好 ， 无 论 是 软件 上 的 还 是 硬件 上 的 支持 ， 都 无 法 和 MP3 相 提 并 论 。 


特点 : 可 以 用 比 MP3 更 小 的 码 率 实 现 比 MP3 更 好 的 音质 ， 高 中 低 
码 率 下 均 有 良好 的 表现 ， 兼 容 性 不 够 好 ， 流 媒体 特性 不 支持 。 


适用 场合 : 语音 聊天 的 音频 消息 场景 。 


1.4 图像 的 物理 现象 


”在 学 习 了 音频 的 相关 概念 之 后 ， 现 在 开始 讨论 视频 ， 视 频 是 由 一 
幅 幅 图 像 组 成 的 ， 所 以 要 学 习 视 频 还 得 从 图 像 学 习 开 始 。 


与 首 频 的 学 习 方 法 类 似 ， 视 频 的 学 习 依然 是 从 图 像 的 物理 现象 开 
始 回顾 ， 这 里 需要 回顾 一 下 小 学 做 过 的 三 核 镜 实验 ， 还 记得 如 何 利用 
三 校 镜 将 太阳 光 分 解 成 彩色 的 光 市 吗 ? 第 一 个 做 这 个 实验 的 人 是 牛 
顿 ， 各 色光 因 其 所 形成 的 折射 角 不 同 而 彼此 分 离 ， 束 像 彩 虹 一 样 ， 所 
以 日 区 能 够 分 解 成 多 种 色彩 的 光 。 后 来 人 们 通过 实验 证 明 ， 红 绿 监 三 
种 色光 无 法 被 分 解 ， 故 称 为 三 原色 光 ， 等 量 的 三 原色 光 相 加 会 变 为 日 
光 ， 即 白光 中 含有 等 量 的 红 光 (R) 、 绿 光 (G) 、 蓝 光 (B) 。 


在 日 单 生活 中 ， 由 于 光 的 反射 ， 我 们 才能 看 到 各 类 物体 的 轮廓 及 
颜色 。 但 是 如 果 将 这 个 理论 应 用 到 手机 上 ， 那 么 结论 还 是 这 个 样子 
吗 ? 答案 是 否定 的 ， 因 为 在 黑暗 中 我 们 也 可 以 看 到 手机 屏幕 上 的 内 
容 ， 实 际 上 人 眼 能 看 到 手机 屏 医 上 的 内 容 的 原理 如 下 。 


假设 一 部 手机 屏幕 的 分 辩 率 是 1280x720， 说 明 水 平方 向 有 720 个 
像素 点 ， 垩 直方 向 有 1280 个 像素 点 ， 所 以 整个 手机 屏幕 束 有 1280x720 
个 像素 点 (这 也 是 分 辨 率 的 售 义 ) 。 每 个 像素 点 都 由 三 个 子 像素 点 组 
成 (如 图 1-7 所 示 ) ， 这 些 密 密 兢 太 的 子 像素 点 在 显微镜 下 可 以 看 得 一 
清二 楚 。 当 要 显示 某 篇 文字 或 者 某 幅 图 像 时 ， 束 会 把 这 幅 图 像 的 每 一 
个 像素 点 的 RGB 通道 分 别 对 应 的 屏幕 位 置 上 的 子 像素 点 绘制 到 屏幕 
上 ， 从 而 显示 整个 图 像 。 


所 以 在 黑 瞳 的 环境 下 也 能 看 到 手机 屏幕 上 的 内 容 ， 是 因为 手机 屏 
幕 是 目 发 光 的 ， 而 不 十 通过 光 的 反射 才 被 人 们 看 到 的 。 


1.5 图像 的 数值 表示 


1.5.1 RGB 表示 方式 


通过 1.4 节 的 讲解 ， 我 们 已 经 知道 任何 一 个 图 像 都 可 以 由 RGB 组 
成 ， 那 么 一 个 像素 点 的 RGB 该 如 何 表示 呢 ? 音频 里 面 的 每 一 个 采样 
(sample) 均 使 用 16 个 比特 来 表示 ， 那 么 像素 里 面 的 子 像素 又 该 如 何 
表示 呢 ? 常用 的 表示 方式 有 以 下 几 种 。 


: 浮 点 表示 : 取 值 范围 为 0.0 一 1.0， 比 如 ， 在 OpenGL ES 中 对 每 一 
个 子 像素 点 的 表示 使 用 的 瓯 是 这 种 表达 方式 。 


.整数 表示 : 取 值 范围 为 0 一 255 或 者 00~EFF，8 个 比特 表示 一 个 子 
像素 ，32 个 比特 表示 一 个 像素 ， 这 就 是 类 似 于 某 些 平台 上 表示 图 像 格 
式 的 RGBA_8888 数 据 格式 。 比 如 ，Android 平 台 上 RGB_565 的 表示 方 
法 为 16 比 特 模式 表示 一 个 像素 ，R 用 5 个 比特 来 表示 ，G 用 6 个 比特 来 表 
示 ，B 用 5 个 比特 来 表示 。 


对 于 一 幅 图 像 ， 一 般 使 用 整数 表示 方法 来 进行 描述 ， 比 如 计算 一 
张 1280x720 的 RGBA_8888 图 像 的 大 小 ， 可 采用 如 下 方式 : 


1280 * 720 * 4 = 3.516MB 


这 也 是 位 图 (bitmap) 在 内 存 中 所 占用 的 大 小 ， 所 以 每 一 张 图 像 
的 裸 数据 都 是 很 大 的 。 对 于 图 像 的 裸 数据 来 讲 ， 直 接 在 网 络 上 进行 传 
输 也 是 不 太 可 能 的 ， 所 以 就 有 了 图 像 的 压缩 格式 ， 比 如 JPEG 压 缩 : 
JPEG 是 静态 图 像 压缩 标准 ， 由 ISO 制 定 。JPEG 图 像 压缩 算法 在 提供 良 
好 的 压缩 性 能 的 同时 ， 具 有 较 好 的 重建 质量 。 这 种 算法 被 广泛 应 用 于 
图 像 处 理 领 域 ， 当 然 其 也 是 一 种 有 损 压 缩 。 在 很 多 网 站 如 淘宝 上 使 用 
的 都 是 这 种 压缩 之 后 的 图 片 ， 但 是 ， 这 种 压缩 不 能 直接 应 用 于 视频 压 
缩 ， 因 为 对 于 视频 来 讲 ， 还 有 一 个 时 域 上 的 因素 需要 考虑 ， 也 就 是 
说 ， 不 仅仅 要 考虑 帧 内 编码 ， 还 要 考虑 帧 间 编 码 。 视 频 采 用 的 是 更 成 
入 的 识 法 ， 头 于 视频 压缩 租 沪 的 相 头 门 容 将 会 在 后 续 章 节 41.6T) 进 
行 介 绍 。 


1.5.2 YUV 表 示 方 式 


对 于 视频 帧 的 裸 数据 表示 ， 其 实 更 多 的 是 YUV 数 据 格 式 的 表示 ， 
YUV 主 要 应 用 于 优化 彩色 视频 信号 的 传输 ， 使 其 向 后 兼容 老式 黑白 电 
视 。 与 RGB 视 频 信 号 传输 相 比 ， 它 最 大 的 优点 在 于 只 需要 占用 极 少 的 
频 宽 (RGB 要 求 三 个 独立 的 视频 信号 同时 传输 ) 。 其 中 *Y” 表 示 明 亮 
度 (Luminance 或 Luma) ， 也 称 灰 阶 值 ， 而 “U” 和 ”“V” 表 示 的 则 是 色 度 
(Chrominance 或 Chroma) ， 它 们 的 作用 是 描述 影像 的 色彩 及 饱和 
上 度 ， 用 于 指定 像素 的 颜色 。“ 亮 度 ” 是 透 过 RGB 输入 信和 号 来 建立 的 ， 方 
法 是 将 RGB 信 号 的 特定 部 分 县 加 a 到 一 起 。“ 色 度 * 则 定义 了 颜色 的 两 个 
方面 色调 与 饱和 度 ， 分 别 用 Cr 和 Cb 来 表示 。 其 中 ，Cr 有 反映 了 RGB 
输入 信号 红色 部 分 与 RGB 信和 号 亮度 值 之 间 的 差异 ， 而 Cb 反 映 的 则 是 
RGB 输入 信号 蓝 色 部 分 与 RGB 信和 号 亮度 值 之 间 的 差异 。 


之 所 以 采用 YUV 色 彩 空间 ， 是 因为 它 的 亮度 信号 Y 和 色 度 信和 号 
U、YV 是 分 离 的 。 如 果 只 有 Y 信 和 号 分 量 而 没有 U、V 分 量 ， 那 么 这 样 表 
示 的 图 像 就 是 黑白 灰 度 图 像 。 彩 色 电 视 采 用 YUV 空 间 正 是 为 了 用 亮度 
信号 Y 解 决 彩色 电视 机 与 黑白 电视 机 的 兼容 问题 ， 使 黑白 电视 机 也 能 
接收 彩色 电视 信号 ， 最 常用 的 表示 形式 是 Y、U、V 都 使 用 8 个 字 节 来 
表示 ， 所 以 取 值 范围 就 是 0~255。 在 广播 电视 系统 中 不 传输 很 低 和 很 
高 的 数值 ， 实 际 上 是 为 了 防止 信号 变动 造成 过 载 ， 因 而 把 这 <“ 两边” 的 
数值 作为 “保护 带 ”， 不 论 是 Rec.601 还 是 BT.709 的 广播 电视 标准 中 ，Y 
的 取 值 范围 都 是 16~235，UV 的 取 值 范围 都 是 16~240。 


YUV 最 常用 的 采样 格式 是 4: 2: 0，4: 2: 0 并 不 意味 着 只 有 Y、 
Cb 而 没有 Cr 分 量 。 它 指 的 是 对 每 行 扫描 线 来 说 ， 只 有 一 种 色 度 分 量 是 
以 2: 1 的 抽样 率 来 存储 的 。 相 邻 的 扫描 行 存储 着 不 同 的 色 度 分 量 ， 也 
就 是 说 ， 如 果 某 一 行 是 4 2: 0， 那 么 其 下 一 行 就 是 4 0: 2， 再 下 一 
行 是 4: 2: 0， 以 此 类 推 。 对 于 每 个 色 度 分 量 来 说 ， 水 平方 向 和 坚 直 方 
回 的 抽样 率 都 是 2: 1， 所 以 可 以 说 色 度 的 抽样 率 是 4: 1。 对 非 压 缩 的 8 
> 
8 所 示 ) 。 
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相 较 于 RGB， 我 们 可 以 计算 一 帧 为 1280x720 的 视频 帧 ， 用 
YUV420P 的 格式 来 表示 ， 其 数据 量 的 大 小 如 下 : 


1280 * 720 * 1 + 1280 * 720 * 0.5 = 1.318MB 


如 果 fps 〈1 秒 的 视频 帧 数目 ) 是 24， 按 照 一 般 电 影 的 长 度 90 分 钟 
nn 其 数据 量 
大 小 就 是 : 


1.318MB * 24fps * 90min * 60s = 166.8GB 


所 以 仅 用 这 种 方式 来 存储 电影 肯定 是 不 可 行 的 ， 更 别 说 在 网 络 上 
进行 流 媒 体 播放 了 ， 那 么 如 何 对 电影 进行 存储 以 及 流 媒 体 播放 呢 ? 答 
案 是 需要 进行 视频 编码 ， 下 一 节 将 会 讨论 视频 的 编码 。 


1.5.3 YUV 和 RGB 的 转化 


前 面 已 经 讲 过 ， 凡 是 演 染 到 屏幕 上 的 东西 (文字 、 图 片 或 者 其 
他 ) ， 都 要 转换 为 RGB 的 表示 形式 ， 那 么 YUV 的 表示 形式 和 RGB 的 表 
示 形 式 之 间 是 如 何 进 行 转 换 的 呢 ? 对 于 标清 电视 601 标 准 ， 它 从 YUV 转 
换 到 RGB 的 公式 与 高 清 电视 709 的 标准 是 不 同 的 ， 通 过 如 下 的 计算 (如 
图 1-9 和 图 1-10) 即 可 得 知 。 


标清 电视 使 用 标准 BT.601 


y 0.299 0.287 0.114 
-0.14713 -0.28880 0.436 


0.013 -0.31499 -0.10001 
0 1.13983 和 


—0.39463 -0.58060 U 
2.03211 0 V 


图 1-9 


高 清 电 视 使 用 标准 BT.709 
y' 0.2126 O77135 O07D5 
-0.09991 -0.33609 0.436 


0.013 -0.>52801 -04002039 
] 0 1.28033 


] —0.21482 -0.38039 U 
2:12198 0 V 


图 1-10 


那么 什么 时 候 该 用 哪 一 种 转换 昵 ? 比较 典型 的 场景 是 在 iOS 平 台中 
使 用 摄像 头 采 集 出 YUV 数 据 之 后 ， 上 传 显卡 成 为 一 个 纹理 ID ， 这 个 时 
候 就 需要 做 YUV 到 RGB 的 转换 (具体 的 细节 会 在 后 面 的 章节 中 详细 讲 
解 ) 。 在 iOS 的 摄像 头 采集 出 一 帧 数据 之 后 (CMSampleBufferRef ) ， 
我 们 可 以 在 其 中 调用 CVBufferGetAttachment 来 获取 YCbCrMatrix， 用 于 
决定 使 用 哪 一 个 矩阵 进行 转换 ， 对 于 Android 的 摄像 头 ， 由 于 其 是 直接 
纹理 ID 的 回调 ， 所 以 不 涉及 这 个 问题 。 其 他 场景 下 需要 大 家 自行 寻找 
对 应 的 文档 ， 以 找 出 适合 的 转换 矩阵 进行 转换 。 


1.6 ”视频 的 编码 方式 
1.6.1 ”视频 编码 


还 记得 前 面 讨论 的 音频 压缩 方式 吗 ?” 首 频 压缩 主要 是 去 除 见 余 信 
息 ， 从 而 实现 数据 量 的 压缩 。 那 么 对 于 视频 压缩 ， 又 该 从 哪儿 方面 来 
对 数据 进行 压缩 呢 ? 其 实 与 前 面 提 到 的 音频 编码 类 似 ， 视 频 压缩 也 是 
通过 去 除 见 余 信息 来 进行 压缩 的 。 相 较 于 首 频 数据 ， 视 频数 据 有 极 强 
的 相关 性 ， 也 就 十 说 有 大 量 的 匈 余 信息 ， 包 括 空间 上 的 见 余 信息 和 时 
间 上 的 元 余 信 息 。 


。 使 用 中 同 编码 技 术 可 以 去 除 时 间 上 的 宛 余 信息 ， 具 体 包括 以 下 
部 分 。 


人 


:运动 补 途 : 运动 补 途 是 通过 先前 的 局 部 图 像 来 预测 、 补 全 当 前 的 
局 部 图 像 ， 它 是 减少 帧 序列 见 余 信息 的 有 效 方法 。 


要 :运动 表示 : 不 同 区 域 的 岁 像 需要 使 用 不 同 的 运动 天 量 来 描述 运动 


吾 ， 


:运动 估计 :运动 信 计 是 从 视频 序列 中 抽取 运动 信息 的 一 整套 技 


使 用 帧 内 编码 技术 可 以 去 除 空间 上 的 见 余 信息 。 


还 记得 前 面 提 到 过 的 图 像 编码 标准 JPEG 吗 ? 对 于 视频 ，ISO 同 样 
也 制定 了 标准 : Motion JPEG 即 MPEG，MPEG 算 法 是 适用 于 动态 视频 
的 压缩 算法 ， 它 除了 对 单 幅 图 像 进行 编码 外 ， 还 利用 图 像 序 列 中 的 相 
关 原 则 去 除 元 余 ， 这 样 可 以 大 大 提高 视频 的 压缩 比 。 和 截至 目前 ， 
MPEG 的 版 本 一 直 在 不 断 更 新 中 ， 主 要 包括 这 样 几 个 版 本 : Mpeg1 
(用 于 VCD) 、Mpeg2 (用 于 DVD) 、Mpeg4 AVC (现在 流 媒 体 使 用 
最 多 的 就 是 它 了 ) 。 


相 比 较 于 ISO 制定 的 MPEG 的 视频 压缩 标准 ，ITU-T 制 定 的 H.261、 
H.262、H.263、H.264 一 系列 视频 编码 标准 是 一 套 单 独 的 体系 。 其 中 ， 
H.264 和 集中 了 以 往 标准 的 所 有 优点 ， 并 吸取 了 以 往 标 准 的 经 验 ， 采 用 的 


是 简洁 设计 ， 这 使 得 它 比 Mpeg4 更 容易 推广 。 现 在 使 用 最 多 的 殉 是 

H.264 标 准 ，H.264 创 造 了 多 参考 巾 、 多 块 类 型 、 整 数 变 换 、 帧 内 预测 
等 新 的 压缩 技术 ， 使 用 了 更 精细 的 分 像素 运动 天 量 (1/4、1/8) 和 新 
二 从 的 环 由 六 波 玛 ， 这 使 得 压缩 性 能 得 到 大 大 提高 ， 系 统 也 变 得 更 加 


元 访 


1.6.2 ”编码 概念 


1.IPB 帧 


视频 压缩 中 ， 每 由 都 代表 着 一 幅 前 止 的 图 像 。 而 在 进行 实际 压缩 
hh 会 采取 各 种 算法 以 减少 数据 的 容量 ， 其 中 IPB 帧 束 是 最 第 见 的 一 


由 ， 帧 内 编码 帆 (intra picture) ，I 帧 通常 是 每 个 GOP (MPEG 所 
使 用 的 一 种 视频 压缩 技术 ) 的 第 一 个 帧 ， 经 过 适度 地 压缩 ， 作 为 随机 
访问 的 参考 点 ， 可 以 当成 静态 图 像 。 其 可 以 看 作 一 个 图 像 经 过 压缩 后 
的 产物 ， 项 压缩 可 以 得 到 6: 1 的 压缩 比 而 不 会 产生 任何 可 觉察 的 模糊 
现象 。I 帧 压缩 可 去 掉 视 频 的 空间 宛 余 信息 ， 下 面 即将 介绍 的 P 帧 和 B 帧 
是 为 了 去 掉 时 间 宛 余 信 息 。 


.P 帧 : 前 向 预测 编码 帧 (predictive-frame) ， 通 过 将 图 像 序列 中 前 
面 已 编码 帧 的 时 间 宛 余 信 息 充 分 去 除 来 压缩 传输 数据 量 的 编码 图 像 ， 
也 称 为 预测 帧 。 


:如 帧 : 双 辐 预测 内 揪 编 码 帧 〈bi-directional interpolated prediction 
frame) ， 既 考虑 源 图 像 序列 前 面 的 已 编码 帧 ， 又 顾及 源 图 像 序列 后 面 
的 已 编码 帧 之 间 的 时 间 元 余 信息 ， 来 压缩 传输 数据 量 的 编码 图 像 ， 也 
称 为 双 回 预测 帧 。 


基于 上 面 的 定义 ， 我 们 可 以 从 解码 的 角度 来 理解 IPB 帧 。 


-T 帧 自 喘 可 以 通过 视频 解压 算法 解压 成 一 张 单独 的 完整 视频 画面 ， 
所 以 趾 去 掉 的 是 视频 帧 在 空间 维度 上 的 见 余 信息 。 


了 帧 需要 参考 其 前 面 的 一 个 I 帧 或 者 P 帧 来 解码 成 一 张 完整 的 视频 画 


-如 帧 则 需要 参考 其 前 一 个 I 帧 或 者 P 帧 及 其 后 面 的 一 个 P 帧 来 生成 一 
张 完整 的 视频 画面 ， 所 以 P 帧 与 B 帧 去 掉 的 是 视频 帧 在 时 间 维度 上 的 元 


余 信 息 。 


IDR 帧 与 1 帧 的 理解 


在 H264 的 概念 中 有 一 个 帧 称 为 IDR 帧 ， 那 么 IDR 帧 与 项 的 区 别 是 
什么 呢 ? 百 先 来 看 一 人 IDR 的 英文 全 称 instantaneous decoding refresh 
picture， 因 为 H264 采 用 了 多 帧 预测 ， 所 以 项 之 后 的 P 帧 有 可 能 会 参考 [ 
帧 之 前 的 帧 ， 这 束 使 得 在 随机 访问 的 时 候 不 能 以 找到 项 作为 参考 条 
件 ， 因 为 即使 找到 项 ， 项 之 后 的 帧 还 是 有 可 能 解析 不 出 来 ， 而 IDR 帧 
瓯 是 一 种 特殊 的 项 ， 即 这 一 帧 之 后 的 所 有 参考 帧 只 会 参考 到 这 个 IDR 
帧 ， 而 不 会 再 参考 表面 的 帧 。 在 解码 器 中 ， 一 旦 收 到 一 个 IDR 帧 ， 歌 会 
立即 祖 理 参考 帧 缓冲 区 ， 并 将 IDR 帧 作为 被 参考 的 帧 。 


2.PTS 与 DTS 


DTS 主 要 用 于 视频 的 解码 ， 天 文 全 称 是 Decoding Time Stamp ，PTS 
主要 用 于 在 解码 阶段 进行 视频 的 同步 和 输出 ， 全 称 是 Presentation Time 
Stamp。 在 没有 B 帧 的 情况 下 ，DTS 和 PTS 的 输出 顺序 是 一 样 的 。 因 为 B 
帧 打 乱 了 解码 和 显示 的 顺序 ， 所 以 一 旦 存在 B 帧 ，PTS 与 DTS 势 必 就 会 
不 同 ， 本 书后 边 的 章节 里 会 详细 讲解 如 何 结合 人 硬件 编码 器 来 重新 设置 
PTS 和 和 DTS 的 值 ， 以 便 将 硬件 编码 器 和 FFmpeg 结 合 起 来 使 用 。 这 里 先 
简单 介绍 一 下 FFmpeg 中 使 用 的 PTS 和 DTS 的 概念 ，FFmpeg 中 使 用 
AVPacket 结 构 体 来 描述 解码 前 或 编码 后 的 压缩 数据 ， 用 AVFrame 结 构 体 
来 描述 解码 后 或 编码 前 的 原始 数据 。 对 于 视频 来 襄 ，AVFrame 就 是 视频 
的 一 帧 图 像 ， 这 帧 图 像 什 么 时 候 显示 给 用 户 ， 取 决 于 它 的 PTS。DTS 是 
AVPacket 里 的 一 个 成 员 ， 表 示 该 压缩 包 应 该 在 什么 时 候 被 解码 ， 如 果 
视频 里 各 帧 的 编码 是 按 输入 顺序 (显示 顺序 ) 依次 进行 的 ， 那 么 解码 
和 显示 时 间 应 该 是 一 致 的 ， 但 是 事实 上， 在 大 多 数 编 解 码 标准 (如 
H.264 或 HEVC) 中 ， 编 码 顺 序 和 输入 顺序 并 不 一 致 ， 于 是 才 会 需要 
PTS 和 DTS 这 两 种 不 同 的 时 间 玲 。 


3.GOP 的 概念 


两 个 幅 之 间 形 成 的 一 组 图 片 ， 就 是 GOP (Group Of Picture) 的 概 
念 。 通 常 在 为 编码 器 设置 参数 的 时 候 ， 必 须要 设置 gop_size 的 值 ， 其 代 
表 的 是 两 个 I 帧 之 间 的 帧 数目 。 前 面 已 经 讲解 过 ， 一 个 GOP 中 容量 最 大 
的 帧 就 是 I 怖 ， 所 以 相对 来 讲 ，gop_size 设 置 得 越 大 ， 整 个 画面 的 质量 
就 会 越 好 ， 但 是 在 解码 端 必须 从 接收 到 的 第 一 个 1 帧 开始 才 可 以 正确 解 
码 出 原始 图 像 ， 否 则 会 无 法 正确 解码 (这 也 是 前 面 提 到 的 I 帧 可 以 作为 
随机 访问 的 帧 ) 。 在 提高 视频 质量 的 技巧 中 ， 还 有 个 技巧 是 多 使 用 B 
帧 ， 一 般 来 说 ，I 的 压缩 率 是 7 〈 与 JPG 差 不 多 ) ，P 是 20，B 可 以 达到 
50， 可 见 使 用 B 帧 能 节省 大 量 空间 ， 节 省 出 来 的 空间 可 以 用 来 更 多 地 保 


存 ] 帧 ， 这 样 就 能 在 相同 的 码 率 下 提供 更 好 的 画 质 。 所 以 我 们 要 根据 不 
同 的 业务 场景 ， 适 当地 设置 gop_size 的 大 小 ， 以 得 到 更 高 质量 的 视频 。 


结合 IPB 帧 和 图 1-11， 相 信 大 家 能 够 更 好 地 理解 PTS 与 DTS 的 概 
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图 1-11 


1.7 “本章 小 结 


本 章 的 内 容 到 此 结束 ， 这 里 简单 复习 一 下 要 点 。 本 章 首 爷 介绍 了 
首 频 的 物理 现象 ， 进 而 研究 如 何 存 储 以 及 编码 首 频 ， 然后 又 讨论 了 图 
像 的 物理 现象 ， 从 RGB 到 YUV， 最 后 讲解 了 视频 的 编码 操作 。 本草 的 
内 容 理论 和 概念 比较 多 ， 难 免 会 枯燥 一 些 ， 但 是 了 解 这 些 概 念 十 必需 
的 。 其 实 本 章 讲 解 的 东西 在 想 要 继续 深 客 ， 还 是 有 很 多 可 供 研究 的 ， 
由 于 本 书 的 核心 是 应 用 层 的 开发 ， 因 此 就 不 考虑 展开 来 讲 了 。 对 于 应 
用 层 的 开发 人 员 来 说 ， 掌 握 本 章 的 内 容 束 已 经 足够 了 ， 寿 想 要 进一步 
了 解 相 关 的 知识 ， 可 目 行 参考 其 他 质料 。 


第 2 章 “” 移 动 端 环境 搭建 


第 1 章 学 习 了 音 视频 的 基础 知识 ， 本 章 将 介绍 如 何在 移动 端 (包括 
iOS 和 Android 两 个 平台 ) 搭建 开发 音 视 频 的 环境 ， 以 及 如 何在 每 一 个 
平台 的 开发 环境 中 添加 C++ 支 持 。 由 于 篇 幅 有 限 ， 在 搭建 开发 环境 
上 时， 本 章 将 只 以 Mac OS 操作 系统 为 例 进行 讲解 ， 对 于 Linux、Windows 
等 操作 系统 的 读者 ， 需 要 大 家 目 行将 各 种 开发 环境 适 配 到 对 应 的 系统 
中 。 但 是 ， 书 中 所 有 项 目的 设计 与 实现 是 不 区 分 开发 系统 环境 的 。 


在 音 视 频 的 开发 过 程 中 ， 不 可 能 所 有 的 编码 、 解 码 以 及 处 理 都 由 
开发 者 从 零 开 始 编写 ， 因 此 免不了 会 用 到 一 些 第 三 方 库 ， 所 以 本 章 还 
将 讲解 交 义 编译 ， 并 尝试 交叉 编译 几 个 音 视频 相关 的 开源 库 。 在 本 章 
的 最 后 ， 会 使 用 LAME 这 个 开源 的 MP3 编 码 库 在 iOS 平 台 和 Android 平 
台 上 将 一 个 PCM 文 件 编码 为 MP3 文 件 ， 最 终 将 编码 后 的 MP3 文 件 发 送 
到 电脑 上 即 可 进行 播放 ， 这 也 是 本 章 要 完成 的 最 终 目 标 。 


2.1 ”在 iOS 上 如 何 搭建 一 个 基础 项 目 
1. 新 建 一 个 iOS 项 目 


首先 ， 在 Xcode 中 选择 新 建 一 个 项 目 ， 会 弹出 如 图 2-1 所 示 的 界 
I 我 们 选择 一 个 新 项 目的 模板 ， 一 般 选 择 Single View Application 
虹 © 


之 后 点 击 Next， 进 入 图 2-2 所 示 的 界面 ， 这 里 需要 键入 产品 的 名 字 
及 包 名 ， 注 意 产 品 的 名 字 将 作为 安装 到 用 户 手 机 上 的 应 用 名 称 ， 包 名 
则 是 该 应 用 的 唯一 标识 ， 键 入 完毕 之 后 点 击 Next 。 


完成 上 述 步 骤 之 后 ， 束 完成 了 一 个 iOS 项 目的 创建 。 查 看 该 项 目的 
工程 文件 ， 会 看 到 Xcode 默认 是 以 Story board 的 形式 构建 的 界面 部 分 ， 
由 于 我 们 不 希望 使 用 这 种 形式 来 构建 界面 ， 而 是 希望 使 用 xib 的 形式 来 
构建 界面 ， 所 以 要 在 Main Interface 选 项 中 删除 其 中 的 内 容 ， 如 图 2-3 所 
不 。 


Choose a template for your new project: 


[ ios | watchOS tvOS macODS Cross-platform 写 ] 
Application 
[1 Es = pr 性 
Single View Game Master-Detail Page-Based Tabbed 
Application Application Application Application 
138 OO 
口 口 
Siicker Pack iMessage 
Application Application 
Framework & Library 
V3 壮 de 
Cocoa Touch Cocoa Touch Metal Library 
Framework Static Library 


Choose options for your new project: 


Product Name: PhuketTour 
Team: None 区 
Organization Name: xiaokai.zhan 
Organization jdentifier com.changba.audio.encoder 
Bundle ldentifier: com.changba.audio.encoder.PhuketTour 
Language: Objective-C 本 
Devices: iPhone 2 
| Use Core Data 
Vv Include Unit Tests 
vV] Include UI Tests 
Cancel Previous Next 
特 品 :Q 人 至 己 目 好 《 回 PhuketTour 区 六 
加 General Capabilities Resource Tags Info Build Settings Build Phases Build Rules 


v | PhuketTour PROJECT Provisioning profile Xcode Managed Protile 0) 
h AppDelegate.h -二 让 和 
= 回 PhuketTour Signing Certificate iPhone Developer: duanhaolxc@126.com (F5ERS... 
m AppDelegate.m 
h ViewController.h TARGETS 
而 ViewControllerm 从 PhuketTour T Deployment Info 
百 Main.storyboard 站] PhuketTourTests 
二 Deployment Target 国 
闫 Assets.xcassets PhuketTourUITests 
可 LaunchScreen.storyboard Devices _ iphone 局 


Info.plist M 
志 Main Interface 
» | Supporting Files 


上 天 PhuketTourTests Device Orientation 回 Portrait 
a 岛 PhuketTourUITests |] Upside Down 
» Ml] Products Landscape Left 


Landscape Right 
Status Bar Style «& Default 总 


_] Hide status bar 
| Requires full screen 


图 2-3 


接 下 来 ， 再 建立 一 个 界面 文件 作为 应 用 的 第 一 个 界面 ， 而 在 iOS 中 


一 个 界面 就 是 一 个 xib 文 件 ， 如 图 2-4 所 示 。 


Choose a template for your new file: 


watchOS tvOS macODS (3) 


Source 
| 
@| S| | | 
Cocoa Touch Ul Test Case Unit Test Case Playground Swift File 
Class Class Class | 
| 
m h C Cr N | 
| 
Objective-C File Header File C File C++ File Metal File 


User Interface 


| 
EF: 


ee 


锋 四 (CU 
Storyboard View Empty Launch Screen 


Cancel _ 
图 2-4 


然后 点 击 Next， 进 入 图 2-5 所 示 的 界面 ， 键 入 该 xib 的 名 字 ， 然 后 选 
择 Target 为 主 工 程 ， 点 击 Create 。 


现在 ， 打 开 该 xib 文 件 ， 如 图 2-6 所 示 ， 首 先 要 在 Placeholders 选 项 下 
面 的 File’s Owner 中 连接 视图 中 的 view， 然 后 设 定 Class 的 值 为 
ViewController 类 。 


Save As: ViewController.xib a 


Tags: 
8 | 三 加 枉 ~ ll PhuketTour 
Favoritas h AppDelegate.h 
日 R t m AppDelegate.m 
ecents 
Ml Assets.xcassets 人 
< iCloud Drive ll Base.Iproj > 
Ne Info.plist 
A: Applications P 
MaliNn.mMm 
El Pictures h ViewControlier.h 
招 Movies m ViewController.m 
状 Desktop 
从 apple 
© Downloads 
Devices 
图 Macintosh HD 
Shared 
AAM 
Group | Ml PhuketTour S 
Targets Iv| 办 PhuketTour 
PhuketTourTests 
PhuketTourUlTests 
New Folder Cancel Create 
姥 《< 加 PhuketTour ) Ml PhuketTour ) 外 ViewController.xib ) 国 File's Owner <A> DQ® 9 
回 placeholders Custom Class 
二 File's owner File's Owner Class | ViewController © 
厚 First Responder Y_ Outlets Module 
searchDisplayController 
| View view = 
站 User Defined Runtime Attributes 
ea me KeyPath Type Vale 
v Referencing Outlet Collections 
New Referencing Outlet Collection 
到 
Document 


iOS 程 序 运行 的 时 候 其 入 口 是 main.m， 但 是 苹果 公司 不 锅 望 开发 者 
修改 该 文件 ， 而 是 要 求 开 发 者 去 修改 应 用 的 入 口 一 一 AppDelgate.m 文 
件 ， 该 文件 中 提供 了 各 种 生命 周期 方法 ， 应 用 局 动 的 时 候 将 会 触发 的 
方法 是 application: didFinishLaunchingWithOptions， 所 以 修改 该 生命 周 
期 方法 的 代码 如 下 : 


self.window = [[UIWindow alloc] initwithFrame:[[UIScreen mainScreen] 
bounds]]; 

UINavigationController *navigationController = [[UINavigationController 
alloc] initwithRootViewController:[[ViewController alloc] 
initwithNibName:@"ViewController" bundle:nil]]; 

self.window.rootViewController = navigationController,; 

[self .window makeKeyAndVisible]; 


接 下 来 要 为 该 xib 拖 入 一 个 Encode 按 钮 ， 并 且 将 该 按钮 的 点 击 事件 
委托 给 ViewController 中 的 startEncode 方 法 ， 如 图 2-7 所 示 。 


六 PhuketTour p> Generic iDS Device Finished running PhuketTour on iphone6 plus A1 


Ml PhuketTour ViewController.xib View 《在 》| 趴 Automatic ) m ViewController.m @implementation ViewController 《2 >》 十 x 口 © 几 


ViewController 


)viewDidLoad { 
]， 


)didReceiveMemoryWarning { 
’ 


2-7 
startEncode 方 法 提供 了 NSLog 来 输出 一 条 日 志 信息 。 然 后 运行 整个 
项 目 ， 点 击 Encode 按 钮 ， 如 有 果 可 以 看 到 正常 的 日 志 信 息 ， 则 说 明 项 目 
搭建 成 功 了 。 


2.CocoaPods 的 介绍 与 使 用 


开发 应 用 的 时 候 ， 并 不 是 所 有 的 基础 功能 都 由 开发 者 从 零 开始 开 
发 ， 所 以 经 常会 用 到 第 三 方 开源 类 库 。 一 定 要 记 住 ， 不 要 重复 造 轮 
子 ! 不 过 ， 在 引用 这 些 类 库 时 ， 可 能 会 出 现 儿 个 令 人 头疼 的 问题 : 第 
一 是 所 引用 的 第 三 方 类 库 有 可 能 需要 依赖 于 其 他 的 第 三 方 类 库 ; 第 二 
是 需要 使 用 已 引用 库 的 新 功能 ， 需 要 了 解 该 类 库 对 应 的 版 本 号 ， 并 且 
该 类 库 对 其 所 依赖 的 其 他 第 三 方 类 库 可 能 也 有 版 本 的 要 求 。 如 有 果 我 们 
仅仅 是 复制 粘贴 ， 那 将 会 非常 太 烦 ， 尤 其 是 对 于 大 型 项 目 来 说 ， 有 时 
甚至 可 能 会 是 一 种 灾难 。 所 以 在 Java Web 的 开发 中 ， 大 家 通常 使 用 
Maven 来 构建 项 目 。 选 择 Maven， 一 方面 是 基于 项 目的 依赖 关系 ， 另 一 
个 重要 的 原因 就 是 为 了 方便 引用 第 三 方 的 类 库 。 对 于 Android 的 应 用 开 
发 ， 现 在 使 用 最 多 的 就 是 Gradle， 一 方面 是 出 于 打包 的 需求 ， 男 一 方面 
也 是 为 了 满足 引用 第 三 方 库 的 需要 。 对 于 iOS 应 用 呢 ? 使 用 最 多 的 则 是 
CocoaPods， 它 可 以 为 开发 者 提供 引用 众多 第 三 方 类 库 的 功能 ， 比 如 
JSONKit、AFNetWorking 等 。 


了 解 了 CocoaPods 的 作用 之 后 ， 接 下 来 就 是 学 习 如 何 安 装 和 使 用 
Cocoapods 来 引用 第 三 方 库 。 


(1) 安装 CocoaPods 


首先 要 安装 好 Ruby 环 境 ，Mac 机 器 上 已 经 自 带 了 Ruby 环 境 ， 如 果 
是 其 他 的 开发 系统 ， 请 读者 上 自行 安装 ， 关 于 如 何 安装 Ruby 环 境 ， 互 联 
网 上 提供 了 大 量 的 资料 。 安 装 完 Ruby 环 境 之 后 ， 使 用 如 下 命令 就 可 以 
安装 CocoaPods 了 : 


sudo gem install cocoapods 


如 有 果 执 行 上 述 命 令 之 后 很 长 时 间 都 没有 反应 ， 那 么 可 能 是 gem 所 使 
用 的 默认 源 有 问题 ， 可 以 使 用 淘宝 提供 的 源 来 安装 CocoaPods， 具 体 的 
做 法 古 先 删除 挥 默认 的 源 ， 操 作 命 令 如 下 : 


gem sources --remove https://rubygems.org/ 


然后 蔡 换 上 新 的 源 ， 命 令 如 下 : 


gem sources -a http://rubygems-china.oss.aliyuncs.com 


此 时 ， 可 以 执行 以 下 命令 来 查看 现在 的 源 到 撒 是 什么 : 


gem sources -1 


如 有 果 出 现下 面 的 内 容 则 说 明 源 更 改 成 功 了 : 


** CURRENT SOURCES *** 
http://rubygems-china.oss.aliyuncs.com 


此 时 ， 再 一 次 在 终端 执行 安装 CocoaPods 的 命令 : 
sudo gem install cocoapods 


稍 等 片刻 ， 就 可 以 将 CocoaPods 下 载 到 本 地 并 日 安装 成 功 了 。 
(2) 使 用 CocoaPods 
前 面 提 到 过 CocoaPods 是 用 来 管理 第 三 方 库 的 工具 ， 那 么 它 是 如 何 
判断 项 目 需要 依赖 哪 一 个 第 三 方 库 的 呢 ? 管 案 是 根据 根 目 录 下 名 为 
Podfile 的 配置 文件 来 获知 的 。 因 此 该 配置 文件 的 语法 以 及 如 何 编写 该 
配置 文件 自然 束 成 了 本 章节 学 习 的 重点 ， 下 面 一 起 来 看 一 下 。 


首 移 输入 平台 系统 的 要 求 : 


platform :1Ios，' 7.0， 


上 述 命令 代表 项 目 运 行 在 i0S 7.0 平 台 之 上 上， 配置 文件 从 第 二 行 开 
始 束 会 出 现 一 个 从 target'Project Name'do 到 end 的 代码 块 ， 该 代码 块 将 用 
于 配置 具体 要 引入 的 第 三 方 库 。 代 码 块 如 下 所 示 : 


target :ktv do 

pod 'Mantle', '1.5' 

pod 'AFNetworking', '2.6.0' 
end 


上 述 配 置 代表 项 目 需要 引进 版 本 号 为 1.5 的 Mantle 与 版 本 号 为 2.6.0 
的 AFNetworking 库 。 最 后 ， 在 命令 行 中 ， 进 入 项 目的 根 目 录 下 执行 pod 
install 命 令 ， 如 果 Podfile 配 置 文件 的 语法 没有 问题 ， 那 么 CocoaPods 就 会 
为 项 目 生成 两 个 文件 和 一 个 目 孙 。 其 中 ， 一 个 文件 的 名 称 是 项 目 名 
称 .xcworkspace， 男 一 个 文件 的 名 称 是 Podfile.lock， 而 生成 的 目录 则 是 
Pods， 其 中 放置 了 引用 第 三 方 库 的 源码 。 此 时 ， 双 击 后 级 名 为 
xcworkspace 的 文件 即 可 打开 此 项 目 ， 查 看 Xcode 目录 里 的 结构 ， 会 发 现 
项 目 中 已 经 有 了 刚才 新 引入 的 第 三 方 库 了 。 
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在 单独 编写 一 个 C 或 C++ 的 项 目 时 ， 如 果 该 项 目 需要 引用 到 第 三 方 
库 ， 那 么 编译 阶段 需要 配置 参数 “extra-cflags，-P" 来 指定 引用 头 文件 的 
位 置 ， 链 接 阶段 需要 配置 参数 “ld-flags，-L” 来 指定 静态 库 的 位 置 ， 并 
且 使 用 -] 来 指定 引用 的 是 哪 一 个 库 。 在 C++ 的 编译 中 ， 如 果 需 要 在 程序 
的 执行 过 程 中 带 入 一 些 宏 (define 的 常量 ) ， 那 么 就 应 该 在 “extra- 
cflags” 的 后 面 增加 自己 需要 定义 的 宏 ， 例如 -DAUTO_TEST， 这 束 相 当 
于 在 程序 中 编写 了 如 下 一 行 代 码 : 


define AUTO_TEST 


那么 在 Xcode 中 ， 应 该 如 何 指定 头 文 件 、 第 三 方 库 ， 以 及 预定 义 宏 

呢 ? 其 实 ，Xcode 里 面 已 经 存在 了 对 应 的 参数 设置 ， 只 需要 在 Build 
Settings 中 设置 这 些 参数 即 可 。 首 先 对 应 于 -[ 来 指定 头 文件 的 目录 ， 
Xcode 使 用 Search Paths 来 设置 头 文件 的 搜索 路 径 ， 通 常会 用 到 Header 
Search Paths 选 项 来 指定 头 文件 的 搜索 路 径 。 其 中 预定 义 变量 $ 

(SRCROOT) 和 $ (PROJECT _DIR) 都 是 项 目的 根 目 录 ， 可 以 基于 这 
两 个 预定 义 变量 再 加 上 相对 路 径 来 指定 头 文件 所 在 的 具体 位 置 ， 预 定 
义 宏 在 Other C Flags 选 项 中 ， 可 以 写 入 -DAUTO_TEST， 表 示 定 义 了 
AUTO_TEST 宏 ; 在 指定 第 三 方 库 时 ，-L 对 应 到 Xcode 中 就 是 other Link 
flags 选 项 ， 其 中 可 以 写 入 需要 链接 的 库 文 件 ， 在 Xcode 项 目 中 直接 添加 
一 个 静态 库 文 件 ，Xcode 会 默认 在 Build phases 选 项 的 Link Binary with 
Library 里 加 入 该 静态 库 ， 但 是 如 果 Xcode 没 有 目 动 加 入 该 静态 库 的 话 ， 
就 需要 开发 者 手动 加 一 下 ， 这 里 其 实 也 是 工 的 一 种 表示 方式 。 


接 下 来 ， 编 写 一 个 类 Mp3Encoder， 负 责 将 PCM 数 据 编码 为 MP3 文 
件 。 首 先 建立 Mp3Encodercpp 和 MPp3Encoderh 这 两 个 文件 ， 然 后 再 编写 
一 个 encode 方 法 ， 该 方法 将 调用 printf 输 出 一 行 日 志 信 息 ， 以 代表 调用 
A A 


现在 残 为 前 面 搭建 起 来 的 iOS 项 目 增加 C++ 的 支持 ， 由 于 OC 语 法 文 
持 混 编 ， 所 以 开发 者 仅 需要 把 引用 C++ 的 OC 类 的 后 组 名 改 为 .mm (OC 
类 的 正常 后 缀 名 是 .m) ， 就 可 以 和 C++ 一 块 编译 了 。 所 以 开发 者 仅 需 要 
把 ViewController 的 后 级 名 改 为 .mm， 再 包含 进 Mp3Encoder.h 尖 文件 ， 
实例 化 该 类 ， 最 后 调用 该 类 的 encode 方 法 ， 代 码 如 下 : 


Mp3Encoder* encoder = new Mp3Encoder(); 
encoder->encode (); 
delete encoder; 


如 果 大 家 可 以 看 到 printf 输 出 的 日 志 信 息 ， 则 代表 已 经 为 该 iOS 项 目 
成 功 添加 了 C++ 的 文 持 。 是 不 是 很 简单 呢 ? 其 实 这 也 是 苹果 公司 为 开发 
者 提供 的 便利 ， 下 面 还 会 讲解 Android 是 如 何 添 加 C++ 支持 的 ， 相 较 于 
iOS 平 台 而 言 ，Android 平 台 要 麻烦 得 多 。 


2.2 ”在 Android 上 如 何 搭建 一 个 基础 项 目 


首先 要 在 开发 机 器 上 安装 Eclipse (尽量 选择 已 经 安装 好 ADT 的 版 
本 ) 与 Android 的 SDK， 然 后 在 Eclipse 中 建立 一 个 Android 项 目 ， 命 名 为 
Mp3Encoder， 如 图 2-8 所 示 。 


New Android Application 
Creates a new Android Application 


Application Name: B Mp3Encoder 
Project Name: B Mp3Encoder 


Package Name: 日 com.phuket.tour.mp3encoder 


Minimum Required SDK: B@ |. API 18: Android 4.3 (Jelly Bean) 4 
Target SDK: 日 ， API 18: Android 4.3 {Jelly Bean) 过 
Compile With: | API 18: Android 4.3 (Jeliy Bean) 起 
Theme:B None ^ 

(3) Next > Cancel 


图 2-8 


在 图 2-8 所 示 的 界面 中 ， 我 们 需要 键入 项 目的 名 字 、 包 的 名 字 (应 
用 程序 的 唯一 标识 ) ， 由 于 在 决定 写 这 本 书 的 时 候 笔 者 正在 普 吉 岛 度 


假 ， 所 以 就 将 其 命名 为 com.phukettourmp3encoder 了 “。 然 后 点 击 Next 按 
钮 ， 进 入 图 2-9 所 示 的 界面 。 


New Android Application 
Configure Project 


v| Create custom launcher icon 


“| Create activity 
| Mark this project as a library 


v| Create Project in Workspace 


Location: 


Working sets 


_| Add project to working sets 


Working sets: 


1 万 | 
(?) < Back Next > Cancel 


图 2-9 


在 这 一 步骤 中 ， 可 以 让 IDE 建 立 一 个 默认 的 Activity， 选 中 图 2-9 中 
的 Create activity 复 选 框 ， 点 击 Next 按 钮 ， 进 入 图 2-10 所 示 的 界面 。 


Configure Launcher Icon 
Configure the attributes of the icon set 


Foreground: ‘Image | clipart | Text | 


Image File: |launcher_icon Browse... | 


Iv) Trim Surrounding Blank Space 
Additional Padding: 


Foreground Scaling: | Crop | Center | 


snave [Nr Sau [ cree 


| 
| 


Backgroung Color: | 


@ < Back Next > Cancel 


这 一 步 不 用 做 任何 选择 ， 全 部 使 用 默认 配置 ， 点 击 Next， 进 入 图 2- 
11 所 示 的 界面 。 


Create Activity 
Select whether to create an activity and if so, what kind of activity. 


v| Create Activity 

Blank Activity 

Blank Activity withn Fragment 
Empty Activity 

Fullscreen Activity 


Master/Detail Flow 


Navigation Drawer Activity 
Tabbed Activity 


Blank Activity 
Creates a new blank activity with an action bar. 


(9) < Back Next > Cancel 
图 2-11 


在 图 2-11 中 ， 选 择 Blank Activity， 代 表 应 用 默认 是 一 个 空 的 页 面 
(后 面 会 加 上 自己 的 按钮 ) ， 点 击 Next， 进 入 图 2-12 所 示 的 界面 。 


Blank Activity 
Creates a new blank activity with an action bar. 


Activity Name 目 MainActivity 


Layout Name @ activity_main 


G@) < Back Cancel Finish 
图 2-12 


在 图 2-12 中 ， 键 入 主 Activity 的 名 字 为 MainActivity， 然 后 点 击 
Finish， 即 可 成 功 建立 该 项 目 ， 其 目录 的 结构 如 图 2-13 所 示 。 


Y 区 Mp3Encoder 
> src 
bp § gen [Generated Java Files] 
Pp Bw Android 4.3.1 
p BN Android Private Libraries 
由 assets 
也 bin 
bp ,libs 
Vv a res 
bP Cdrawable-hdpi 
EE drawable-ldpi 
PF drawable-mdpi 
PF (drawable-xhdpi 
Pp E> drawable-xxhdpi 
bp layout 
F (menu 
> Eyvalues 
bP Cvalues-v11 
FP Evalues-v14 
PF [values-w820dp 
a AngdroidManifest.xml 
弛 ic_launcher-web.png 
国 proguard-project.txt 
习 project.properties 


图 2-13 
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在 Android 平 台 上 开发 音 视频 相关 的 项 目 ， 必 有 定 会 涉及 JNI (Java 
Native Interface) 这 一 概念 。 它 是 一 种 编程 框架 ， 人 允许 运行 于 JVM 的 
Java 程 序 去 调用 本 地 代码 (C/C++ 以 及 汇编 语言 的 代码 ) 。 本 地 代码 通 
常会 与 硬件 或 操作 系统 相关 联 ， 因 而 其 会 在 一 定 程度 上 破坏 Java 语 言 所 
宣称 的 跨 平 台 特性 。 不 过 在 某 些 业务 场景 下 这 种 调用 又 是 必需 的 ， 比 
如 Android 系 统 (framework 层 面 ) 就 采用 了 大 量 的 JNI 手 段 去 调用 Native 
层 的 实现 库 。 如 果 抛 开 音 视频 相关 的 场景 ， 仅 仅 考 虑 Android 的 开发 ， 
那么 有 哪些 场景 会 用 到 JNI 呢 ? 大 约 有 以 下 几 种 情况 。 


.应 用 程序 需要 一 些 平 台 相 关 特 性 的 支持 ， 而 Java 层 没有 对 应 的 API 
支持 (比如 OpenSL ES 的 使 用 ) 。 


:调用 成 熟 的 或 者 已 经 存在 的 、 用 C/C++ 语言 编写 的 代码 库 。 比 如 
使 用 OpenGL ES 的 视频 特效 处 理 库 ， 或 者 利用 FFmpeg、LAME 等 第 三 


方 开源 库 。 


:应 用 程序 的 茶 些 关键 操作 对 运行 速度 有 较 高 的 有 要求。 分 逻辑 
可 以 用 C 或 者 汇编 语言 来 编写 ， 再 通过 JNI 癌 Java 层 提供 访 | lr 


he 熟练 使 用 JNI 是 最 基本 的 妥 求 ， 所 以 在 
这 里 先 详细 地 讲解 一 下 。JNI 主 要 有 两 种 调用 形式 第 一 种 也 是 最 常见 
的 ， a 第 二 种 则 恰好 相反 ， 束 是 在 Native 
层 调用 Java 代 码 。 由 于 使 用 场景 最 多 的 是 第 一 种 方式 ， 所以 本 下 从 介绍 


这 种 方式 ， 而 第 二 种 方式 的 调用 在 后 续 的 章节 中 也 会 用 到 ， 到 时 候 读 
者 目 然 会 学 习 到 。 


要 完成 一 个 Java 层 调用 Native 代 码 的 项 目 ， 大 致 步骤 如 下 。 


本 1) 编写 一 个 Java 类 ， 并 且 在 某 个 方法 签名 的 修饰 符 中 加 上 native 修 
烦人 符 。 


2) 使 用 javac 命 令 编 译 第 1 步 中 的 Java 类 ， 使 之 成 为 一 1 class 文 什 ， 
如 果 使 用 的 是 Eclipse 的 IDE， 则 其 将 会 自动 执行 javac 的 编译 命令 ， 生 成 
的 class 文 件 将 存在 于 项 目 目录 下 的 bin/classes 目 永 下 。 
3) 使 用 javah 命 令 将 第 2 步 的 输出 作为 输入 ， 生 成 JNI 的 头 文件 。 


4) 将 JNI 头 文件 复制 到 项 目下 的 jni 目 录 ， 并 且 建 立 一 个 cpp 的 实现 
文件 实现 该 JNI 头 文件 中 的 画 数 。 


5) 编写 Android.mk 文 件 ， 加 入 第 4 步 的 本 地 代码 ， 利 用 ndk-build 生 
成 动态 链接 库 。 


6) 在 Java 类 中 加 载 第 5 步 生 成 的 动态 链接 库 。 
7) 在 Java 类 中 调用 该 Native 方 法 。 
下 面 以 一 个 实例 来 完成 上 述 的 步 台 ， 具 体 如 下 。 


1) 在 Eclipse 的 com.phuket.tour.studio 包 下 ， 建 立 一 个 Java 文 件 
Mp3Encoder.java ° 


2) 在 上 述 Java 文 件 中 编写 一 个 本 地 方法 : 


public native void encode()， 


3) 进入 对 应 的 class 文 件 所 在 的 目录 下 ， 执 行 下 面 的 命令 生成 JNI 
接口 文件 : 


javah -jni com.phuket.tour.studio.Mp3Encoder 


4) 然后 把 该 关 文件 复制 到 jni 目 录 站， 编写 一 个 Mp3Encoder.cpp 来 
实现 该 接口 文件 ， 这 里 仅仅 输出 一 行 日 志 。 


首 移 利用 * 安 定义? 定义 一 个 输出 日 志 的 安 


#define LOGI(...) __android_ log_print(ANDROID_LOG_INFO，LOG_TAG， 
_VA ARGS ) 


然后 定义 LOG_TAG 为 Mp3Encoder， 并 且 实 现 该 encode 方 法 : 


JNIEXPORT void JNICALL 
Java_com phuket_ tour_studio Mp3Encoder_encode(JNIEnv * env， 
jobject obj) { 
LOGI("encoder encode"); 


} 


5) 新 建立 一 个 Android.mk 文 件 ， 并 键入 以 下 内 容 : 


LOCAL_PATH := $(call my-dir) 

include $(CLEAR_ VARS) 

LOCAL_SRC_FILES = ./Mp3Encoder.cpp 
LOCAL_LDLIBS := -L$(SYSROOT)/UusSr/1lib -11og 
LOCAL_ MODULE := libaudioencoder 

include $(BUILD_ SHARED_LIBRARY) 


上 上 述 代码 具体 每 一 行 的 含义 ， 在 后 续 革 节 中 会 有 详细 的 解释 。 现 
在 最 重要 的 就 是 把 该 项 目 运 行 起 来 。 


6) 在 当前 目录 下 执行 ndk-build 指 令 ， 编 译 出 该 动态 so 库 。 
7) 在 MainActivity 中 写 入 一 个 静态 代码 块 : 


static { 
System.loadLibrary("audioencoder"), 


写 该 代码 块 的 目的 是 将 刚刚 编译 好 的 so 库 加 载 到 我 们 的 项 目 中 。 


8) 在 onCreate 中 调用 Mp3Encoder 类 的 encode 方 法 ， 最 后 运行 该 应 
用 ， 并 且 打 开 logcat 视 图 查看 结 


如 条 可 以 在 logcat 中 看 到 JNI 层 输出 的 日 志 ， 则 代表 已 经 成 功 地 为 
Android 项 目 添 加 了 C++ 的 文 持 。 如 果 仅 仅 是 自己 编写 代码 ， 而 不 需要 
调用 其 他 的 第 三 方 开源 库 ， 这 样 吏 完全 可 以 了 。 但 是 在 开发 音 视频 项 
目 时 ， 肯 定 会 需要 依赖 很 多 第 三 方 的 库 ， 比 如 音 视 频 编 解码 的 开源 
库 、 音 视频 特效 处 理 的 开源 库 ， 等 等 ， 那 么 如 何 根 据 目 己 的 需要 添加 
各 种 依赖 库 呢 ?这 将 在 2.3.3 市 中 与 大 家 详细 讨论 ， 最 终 笔 着 会 使 用 
LAME 库 编码 一 个 MP3 的 音频 文件 作为 本 章 的 实例 。 


2.3 ”区 叉 编 详 的 原理 与 实践 


本 节 将 学 习 交 叉 编 译 ， 在 音 视 频 的 开发 中 了 解 交 叉 编译 是 必需 
的 ， 因 为 无 论 在 哪 一 种 移动 平台 下 开发 ， 第 三 方 库 都 是 需要 进行 交叉 
编译 的 。 本 节 会 从 交叉 编译 的 原理 开始 介绍 ， 人 然后 会 在 两 个 移动 平台 
下 编译 出 首 视频 开发 常用 的 几 个 库 ， 包 括 X264、FDK_AAC、 
LAME， 最 终 将 以 LAME 库 为 例 进行 实践 ， 完 成 一 个 将 首 频 的 PCM 神 
数据 编码 成 MP3 文 件 的 实例 ， 以 此 来 证 明 交 叉 编译 的 重要 性 。 


2.3.1 交叉 编译 的 原理 


先 来 看 一 下 ， 如 有 宁 要 在 PC 上 运行 一 个 二 进 制 程序 (以 源码 的 方式 
进行 编译 ， 不 要 以 包 管理 工具 的 方式 来 安装 ) ， 需 要 怎样 做 。 


首先 ， 要 有 这 个 二 进 制程 序 的 源 代码 (有 可 能 是 直接 下 载 的 ， 也 
有 可 能 是 目 己 编写 的 代码 ) ， 然 后 在 PC 上 进行 编译 链接 生成 可 执行 文 
件 ， 最 后 在 Terminal 下 面 去 执行 该 可 执行 文件 。 


上 述 流程 中 包含 了 几 个 角色 ， 百 移 是 要 有 源 代 码 ， 然 后 是 要 知道 
最 终 运 行 该 二 进 制程 序 的 机 器 是 哪 一 个 (其 实 就 是 本 机 器 ) ， 当 然 ， 
其 中 最 重要 的 就 是 编译 器 和 链接 器 了 ， 对 于 C 或 者 C++ 程 序 来 讲 ， 就 是 
使 用 gcc 和 g++， 而 该 编译 器 是 需要 预先 安 装 在 机 器 上 的 。 分 析 了 这 人 么 
多 角色 ， 总 结 成 一 句 话 就 是 : 使 用 本 机 器 的 编译 器 ， 将 源 代 码 编译 链 
授 成 为 一 个 可 以 在 本 机 器 上 运行 的 程序 。 这 就 是 正常 的 编译 过 程 ， 也 
称 为 Native Compilation， 中 文 译作 本 机 编译 。 


了 解 了 本 机 编译 之 后 ， 再 来 看 一 下 何 为 交叉 编译 。 所 谓 交 叉 编 
译 ， 束 是 在 一 个 平台 (如 PC) 上 生成 男 外 一 个 平台 (Android、iOS 或 
者 其 他 奶 入 式 设 备 ) 的 可 执行 代码 。 相 较 于 正 沿 编 译 ， 下 面 来 看 一 下 
交叉 编译 的 相应 角色 。 首 先 ， 最 终 程 序 运 行 的 设备 惑 是 Android 或 者 
iOS 设 备 ， 源 代码 整 古 从 第 三 方 开源 网 站 上 下 载 的 源 代码 ， 编 译 机 器 
束 是 我 们 的 PC， 而 编译 作 也 必须 要 安 闭 到 该 PC 上 。 但 是 这 里 对 编译 右 
古 有 特殊 需求 的 ， 最 终 程 序 运 行 的 系统 必须 要 提供 可 运行 在 PC 上 的 编 
译 袁 ， 而 该 编译 做 束 是 大 家 币 说 的 交叉 工具 编译 链 。 


了 解 了 交叉 编译 之 后 ， 大 家 应 该 能 够 理解 交叉 编译 存在 的 必要 性 
了 。 在 一 般 的 租 入 式 系 统 开发 中 ， 运 行程 序 的 目标 平台 其 存储 空间 和 
运算 能 力 都 是 有 限 的 ， 尽 管 现在 的 OS 和 Android 设 备 拥 有 越 来 越 强劲 
的 计算 能 力 ， 但 古 在 这 种 藤 入 式 设备 中 进行 本 地 编译 是 不 太 可 能 的 ， 
一 则 征 因为 计算 能 力 的 问题 ， 还 有 一 个 重要 的 原因 驶 是 编译 工具 以 及 
整个 编译 过 程 异 各 繁琐 ， 所 以 在 这 种 情况 下 ， 直 接 在 ARM 平 台 下 进行 
本 机 编译 几乎 是 不 可 能 的 。 而 具有 更 加 强劲 的 计算 能 力 与 更 大 存储 空 
间 的 PC 才 是 理想 的 选择 ， 所 以 大 部 分 的 能 入 式 开 发 平台 都 提供 了 本 身 
平台 区 又 编译 所 需要 的 交叉 工具 编译 链 ， 通 过 该 交叉 工具 编译 链 ， 开 
发 者 号 能 在 PC 上 编译 出 可 以 运行 在 ARM 平 台 下 的 程序 了 。 


论 是 自行 安装 PC 上 的 编译 器 ， 还 是 下 载 其 他 平台 (Android 或 
本 它们 都 会 提供 以 下 几 个 工具 : CC、AS 
AR、LD、NM、GDB。 那 么 ， 这 几 个 工具 到 底 是 做 什么 用 的 呢 ? 下面 
就 来 逐一 解释 一 下 。 

CC: 编译 右 ， 对 C 源 文件 进行 编译 处 理 ， 生 成 汇编 文件 。 


.AS， 将 汇编 文件 生成 目标 文件 汇编 文件 使 用 的 是 指令 助 记 符 
AS 将 它 翻译 成 机 器 码 ) 。 


.AR: 打包 器 ， 用 于 库 操作 ， 可 以 通过 该 工具 从 一 个 库 中 删除 或 
者 增加 目标 代码 模块 。 


:LD: 链接 器 ， 为 前 面 生 成 的 目标 代码 分 配 地 址 空间 ， 将 多 个 目 
标 文 件 链接 成 一 个 库 或 者 是 可 执行 文件 。 


-GDB: 调试 工具 ， 可 以 对 运行 过 程 中 的 程序 进行 代码 调试 工作 。 


:STRIP: 以 最 终生 成 的 可 执行 文件 或 者 库 文 件 作 为 输入 ， 然 后 消 
除 挥 其 中 的 源码 。 


NM: 查看 静态 库 文件 中 的 符号 表 。 

-Objdump: 查看 静态 库 或 者 动态 库 的 方法 签名 。 

了 解 了 这 些 之 后 ， 当 读者 再 进行 交叉 编译 或 者 使 用 交叉 编译 工具 
链 拥 供 的 工具 时 ， 束 不 会 感到 阳 生 了 ， 接 下 来 将 会 在 iOS 平 全 和 
Android 平 台 分 别 演示 如 何 交 叉 编 译 出 几 个 利用 的 音 视 频 开源 库 。 
编译 右 对 比 

正常 编译 一 个 程序 的 过 程 如 下 : 


编译 : gcc-c main.cpp./libmad/mad_decoder.cpp-I./libmad/include 
打包 : ar cr ./prebuilt/libmedia.a mad_decoder.o 


链接 : g++-0 main main.0-L../prebuilt-l mdedia 


在 这 个 过 程 中 ，gcc、 二 个 编译 工具 ， 在 这 
里 没有 用 到 的 ranlib、gdb、nm 、strip 等 都 会 包含 在 PC 的 编译 絮 中 ， 同 
样 其 他 平台 提供 时 具 六 训 中 也 人 全 全 这 此 二 信 人 了 中 比如 
Android 提 供 的 NDK， 其 交叉 工具 编译 链 中 的 prebuilydarwin- 


x86_64/bin 中 ， 就 包含 了 对 应 的 gcc、ar、g++、gdb、strip、nm、ranlib 
等 工具 。 


2.3.2 ioOS 平 台 交 叉 编 译 的 实践 


前 面 提 到 的 目标 平台 虽然 都 基于 ARM 平 台 ， 但 是 随 着 时 间 的 推 
移 ， 平 台 也 在 不 断 地 演进 ， 就 像 armv5 到 armv6、armv7 以 及 到 现在 的 
arm64， 对 于 iOS 平 台 来 讲 ， 每 一 代 手 机 对 应 的 指令 集 到 底 应 该 是 什么 
呢 ? 下 面 就 依据 iOS 设 备 发 布 的 时 间 线 来 逐个 看 一 下 。 


‘armv6: iPhone、iPhone 2 、iPhone 3G 


‘armv7: iPhone 4、iPhone 4S 
"armv7s: iPhone 5、 iPhone 5S 


.arm64: iPhone 5S、 iPhone6 (P) 、iPhone 6S (P) 、iPhone7 
(P) 


机 器 对 指令 集 的 支持 是 同 下 兼容 的 ， 因 此 armv7 的 指令 集 是 可 以 
运行 在 iPhone 5S 中 的 ， 只 是 效率 没 那 么 高 而 已 。 借 此 机 会 ， 先 来 讨论 
一 下 iOS 项 目 文件 中 的 一 项 配置 ， 即 Build Settings 里 面 的 Architectures 
选项 。Architectures 指 的 是 该 App 文 持 的 指令 集 ， 一 般 情 况 下 ， 在 
Xcode 中 新 建 一 个 项 目 ， 其 默认 的 Architectures 选 项 值 是 Standard 
architectures (armv7、arm64) ， 表 示 该 App 仅 支持 armv7 和 arm64 的 指 
令 集 ; Valid architectures 选 项 指 即将 编译 的 指令 集 ， 一 般 设 置 为 
armv7、armv7s、arm64， 表 示 一 般 会 编译 这 三 个 指令 集 ;，Build Active 
Architecture Only 选 项 表示 是 否 只 编译 当前 适用 的 指令 集 ， 一 般 情况 下 
在 Debug 的 时 候 设 置 为 YES， 以 便 可 以 更 加 快速 、 高 效 地 调试 程序 ， 
而 在 Release 的 情况 下 设置 为 NO， 以 便 App 在 各 个 机 器 上 都 能 够 以 最 高 
效率 运行 ， 因 为 Valid architectures 选 择 的 对 应 指令 集 是 armv7、armv7s 
和 arm64， 在 Release 下 会 为 各 个 指令 集 编 译 对 应 的 代码 ， 因 此 最 后 的 
ipa 体 积 基 本 上 翻 了 3 倍 。 


基于 上 面 的 描述 ， 以 及 设备 与 指令 集 平 台 的 对 比 ， 大 多 数 情 况 
下 ， 我 们 在 实际 的 交叉 编译 过 程 中 只 编译 armv7 与 arm64 这 两 个 指令 集 
平台 下 的 库 ， 因 为 armv7s 设 备 的 数量 比较 少 ， 有 armv7 来 保 确 完全 是 可 
以 运行 的 ， 并 且 armv7 到 armv7s 指 令 集 的 变动 又 比较 少 ， 而 arm64 的 变 


动 则 比较 大 ， 设 备 数量 也 比较 多 ， 所 以 需要 单独 编译 出 来 ， 以 保证 这 
一 批 设备 可 以 至 受到 最 优质 的 运行 状况 。 


1.LAME 的 交叉 编译 


首先 来 看 一 下 LAME 库 是 如 何 被 交叉 编译 的 ， 在 交叉 编译 之 前 先 
介绍 一 下 LAME 库 。 


LAME 简 介 


LAME 是 目前 非常 优秀 的 一 种 MP3 编 码 引 警 ， 在 业界 ， 转 码 成 
MP3 格 式 的 音频 文件 时 ， 最 常用 的 编码 器 就 是 LAME 库 。 当 达到 
320Kbitys 以 上 时 ，LAME 编 码 出 来 的 音频 质量 几乎 可 以 和 CD 的 音质 相 
媲美 ， 并 且 还 能 保证 整个 音频 文件 的 体积 非常 小 ， 因 此 车 要 在 移动 端 
平台 上 编码 MP3 文 件 ， 使 用 LAME 便 成 为 唯一 的 选择 。 


前 面 在 介绍 交叉 编译 原理 的 时 候 曾 提 到 过 ， 不 论 在 何 种 平台 上 进 
行 交 叉 编 译 ， 都 要 知道 交叉 编译 工具 链 在 什么 地 方 。 同 样 ， 在 iOS 上 
进行 交叉 编译 时 ， 也 要 摘 清 楚 这 个 最 基本 的 问题 。 其 实在 安装 iOS 的 
开发 环境 Xcode 上 时， 配套 的 编译 絮 就 已 经 安装 好 了 。 开 发 OS 平台 下 的 
App 束 古 这 么 方便 ,不 需要 再 单独 下 载 交 义工 具 编 译 链 ， 接 下 来 直接 
去 SourceForge 下 载 最 新 的 LAME 版 本 ， 访 问 链 接 如 下 : 


https://sourceforge.net/projects/lame/files/lame/3.99/ 


这 里 选择 3.99.5 版 本 ， 将 源码 下 载 下 来 之 后 ， 编 写 一 个 
build_armv7.sh 脚 本 ， 用 于 编译 armv7 指 令 集 下 的 版 本 ， 以 支持 iPhone 
5S 及 以 下 的 设备 ，Shell 脚 本 里 面 的 内 容 如 下 : 


./configure \ 

--disable-shared \ 

--disable-frontend \ 

--host=arm-apple-darwin \ 

--prefix="./thin/armv7" AN 

CC="xcrun -sdk iphoneos clang -arch armv7" \ 

CFLAGS="-arch armv7 -fembed-bitcode -miphoneos-version-min=7.0" \ 
LDFLAGS="-arch armv7 -fembed-bitcode -miphoneos-version-min=7.0" 
make clean 

make -j8 

make install 


下 面 分 别 解释 一 下 这 几 个 命令 以 及 选项 的 意义 。configure 是 符合 
GNU 标 准 的 软件 包 发 布 所 必 备 的 命令 ， 所 以 这 里 是 通过 configure 的 方 
式 来 生成 Makefile 文 件 ， 然 后 使 用 make 和 make install 编 译 和 安装 整个 
库 。 可 使 用 configure-h 命 令 来 查看 一 下 configure 的 帮助 文档 ， 了 解 
LAME 的 可 选 配置 项 ， 具 体 如 下 。 


--prefix: 指定 将 编译 好 的 库 放 到 哪个 目录 下 ， 这 是 GNU 大 部 分 库 
的 标准 配置 。 


.host， 指定 最 终 库 要 运行 的 平台 。 


-CC: 指定 交叉 工具 编译 链 的 路 径 ， 其 实 这 里 就 是 指定 gcc 的 路 


从 


-CFLAGS: 指定 编译 时 所 带 的 参数 。Shell 脚 本 中 指定 -march 是 
armv7 平 台 ， 代 表 编 译 的 库 运 行 的 目标 平台 是 armv7 平 台 ; 另外 Shell 脚 
本 中 也 指定 了 打开 bitcode 选 项 ， 这 使 得 使 用 编译 出 来 的 这 个 库 的 工 
程 ， 可 以 将 enable-bitcode 选 项 设置 为 YES， 如 果 没 有 打开 该 选项 ， 那 
么 其 在 Xcode 中 只 能 设置 为 NO， 而 这 对 于 最 终 App 的 运行 性 能 会 有 一 
定 的 影响 。Shell 脚 本 中 同时 也 指定 了 编译 出 来 的 这 个 库 所 文 持 的 最 低 
iOS 版 本 是 7.0， 如 果 不 配 置 该 参数 的 话 ， 则 默认 是 iOS 9.0 版 本 ， 而 所 
使 用 的 编译 出 来 的 这 个 库 的 工程 ， 铬 所 支持 的 最 低 iOS 版 本 不 是 9.0 的 


话 ，Xcode 就 会 给 出 警告 。 


:LDFLAGS: 指定 链接 过 程 中 的 参数 ， 同 样 也 要 带 上 bitcode 的 选 
项 以 及 开发 者 期 望 App 支 持 的 最 低 iOS 版 本 的 选项 参数 。 

:--disable-shared: 通常 是 GNU 标 准 中 关闭 动态 链接 库 的 选项 ， 一 
般 是 在 编译 出 命令 行 工具 的 时 候 ， 期 望 命令 行 工具 可 以 单独 使 用 而 不 
需要 动态 链接 库 的 配置 。 


.--disable-frontend: 不 编译 出 LAME 的 可 执行 文件 。 


bitcode 


bitcode 模 式 是 表明 当 开 发 者 提交 应 用 (App) 到 App Store 上 的 时 
候 ，Xcode 会 将 程序 编译 为 一 个 中 间 表 现形 式 (bitcode) 。App Store 
会 将 该 bitcode 中 间 表 现形 式 的 代码 进行 编译 优化 ， 链 接 为 64 位 或 者 32 


位 的 程序 。 如 果 程 序 中 用 到 了 第 三 方 静态 库 ， 则 必须 在 编译 第 三 方 静 
态 库 的 时 候 也 开启 bitcode， 人 否则 在 Xcode 的 Build Setting 中 必须 要 关闭 
bitcode， 这 对 于 App 来 讲 可 能 会 造成 性 能 的 降低 。 


同样 再 看 一 下 arm64 指 令 集 下 面 的 编译 脚本 ， 建 立 build_arm64.sh 
文件 ， 然 后 输入 以 下 内 容 : 


./configure \ 

--disable-shared \ 

--disable-frontend \ 

--host=arm-apple-darwin \ 

--prefix="./thin/arm64" \ 

CC="xcrun -sdk iphoneos clang -arch arm64" \ 

CFLAGS="-arch arm64 -fembed-bitcode -miphoneos-version-min=7.0" \ 
LDFLAGS="-arch arm64 -fembed-bitcode -miphoneos-version-min=7.0" 
make clean 

make -j8 

make install 


上 壕 选 项 配置 大 部 分 都 与 armv7 的 脚本 相同 ， 不 同 之 处 在 于 这 里 
的 CFLAGS 指 定编 译 的 目标 平台 是 arm64 的 指令 集 平台 。 如 果 想 在 模拟 
器 上 运行 ， 那 么 就 需要 编译 出 i386 架 构 下 的 静态 库 ， 而 编译 i386 平 台 
的 Shell 脚 本 也 与 此 类 似 ， 仅 仅 是 改变 平台 架构 。 为 了 节省 篇 幅 ， 后 续 
讨论 FDK AAC 及 X264 的 编译 脚本 时 ， 将 只 提供 armv7 的 编译 方式 。 


每 两 个 脚本 执行 完毕 之 后 ， 就 可 以 去 thin-lame 目 录 下 寻找 对 应 的 
armv7 与 arm64 目 孙 ， 并 且 在 这 两 个 目录 下 会 看 到 bin、lib、include、 
share 这 四 个 目录 。 由 于 在 配置 的 时 候 裁剪 掉 了 可 执行 文件 ， 所 以 bin 目 
录 下 不 会 有 内 容 ， 在 lib 目 录 下 则 是 链接 过 程 中 需要 链接 的 libmp31lame.a 
静态 库 文件 ， 在 include 目 录 下 则 是 编译 过 程 所 需要 引用 的 头 文件 。 


至 此 已 经 编译 出 了 两 个 指令 集 平台 下 的 静态 库 文 件 与 include 文 件 
日 录 ， 其 实 这 两 个 include 文 件 的 目录 是 一 样 的 ， 随 便 使 用 哪 一 份 都 可 
以 ,但 是 对 于 静态 库 文 件 ， 应 该 如 何 用 呢 ? 这 里 就 会 涉及 如 何 合并 静 
和 合并 静态 库 应 该 使 用 lipo 命 令 ， 在 终 疹 下 切换 到 thin-lame 
目 > 下 建 入 : 


lipo -create ./arm64/1ib/libmp3lame.a ./armv7/l1ib/libmp3lame.a -output 
libmp3lame.a 


这 行 命令 会 把 两 个 平台 架构 下 的 静态 库 文件 合并 到 一 个 
libmp3lame.a 的 静态 库 文 件 中 ， 现 在 来 验证 一 下 最 终 的 libmp3lame.a 是 
否 包含 armv7 与 arm64 这 两 个 平台 架构 的 静态 库 ， 在 命令 行 键入 : 


file libmp3lame.a 


如 有 果 看 到 如 下 信息 ， 则 说 明 编 译 成 功 了 : 


libmp3lame.a: Mach-0 universal binary with 2 architectures: [arm v7: current ar 
archive] [arm64: current ar archive] 

libmp3lame.a (for architecture armv7) : current ar archive 

libmp3lame.a (for architecture arm64) : current ar archive 


如 果 在 开发 过 程 中 编译 的 第 三 方 库 比 较 多 ， 而 同时 编译 的 指令 集 
平台 也 比较 多 ， 则 每 次 都 需要 新 建 儿 个 脚本 文件 ， 然 后 编译 出 各 个 平 
台 的 静态 库 ， 最 终 再 用 lipo 命 令 进行 合并 ， 将 会 非常 麻烦 。 而 软件 工 
程 师 就 是 要 把 重复 性 的 东西 做 成 工具 ， 让 工作 变 得 更 加 简单 ， 所 以 后 
续 在 代码 仓库 中 会 有 完整 的 编译 脚本 ， 可 以 编译 出 所 有 架构 平台 下 的 
静态 库 ， 并 且 也 已 经 用 lipo 命 令 把 所 有 指令 集 平 台 下 的 静态 库 合 并 到 
(包括 即将 介绍 的 FDK_AAC 的 库 及 X264 库 的 交 

编译 


2.FDK_AAC 的 交叉 编译 
在 交叉 编译 之 前 先 介 绍 一 下 FDK_AAC 库 。 
FDK_AAC 简 介 


FDK_AAC 是 用 来 编码 和 解码 AAC 格 式 音频 文件 的 开源 库 ， 
Android 系 统 编码 和 人 解码 AAC 所 用 的 就 是 这 个 库 。 开 发 者 Fraunhofer IIS 
是 AAC 音 频 规 范 的 核心 制定 者 (MP3 时 代 Fraunhofer IIS 也 是 MP3 规 范 
的 制定 者 ) 。 前 面 章节 中 已 经 介绍 过 AAC 有 很 多 种 Profile， 而 
FDK_AAC 几 乎 支持 大 部 分 的 Profile， 并 且 支 持 CBR 和 VBR 这 两 种 模 
式 ， 根 据 笔 者 个 人 的 听 感 和 频谱 分 析 ， 在 同等 码 率 下 DK_AAC 比 
NeroAAC 以 及 faac 和 voaac 的 首 质 都 要 好 一 些 。 


下 面 先 到 SourceForge 上 下 载 稳定 版 本 的 FDK_AAC: 


https://sourceforge.net/p/opencore-amr/fdk-aac/ci/vO.1.4/tree/ 


然后 在 根 目 未 下 建立 build_armv7.sh 脚 本 ， 在 里 面 写 入 以 下 内 容 : 


./configure \ 

--enable-static 和 

--disable-shared \ 

--host=arm-apple-darwin \ 
--prefix="$FDK_ROOT_DIR/thin/armv7" 

CC="xcrun -sdk iphoneos clang" \ 
AS="gas-preprocessor .pl $CC" 

CFLAGS="-arch armv7 -mios-simulator-version-min=7.0" \ 
LDFLAGS="-arch armv7 -mios-simulator-version-min=7.0" 
make clean 

make -j8 

make install 


FDK_AAC 的 配置 选项 中 要 求 比 LAME 多 配置 一 项 AS 参数 ， 并 且 
需要 安装 gas-preprocessor， 首 先进 入 下 方 链接 : 


https://github.com/applexiaohao/gas-preprocessor 


下 载 gas-preprocessor.pl， 然 后 复制 到 /usr/local/bin/ 目 录 下 ， 修 
改 /usr/local/bin/gas-preprocessor.pl 的 文件 权限 为 可 执行 权限 : 


chmod 777 /usr/local/bin/gas-preprocessor.pl 


这 样 gas-preprocessor.pl 束 安装 成 功 了 ， 再 次 执行 上 面 的 Shell 脚 
本 ， 成 功 之 后 就 可 以 在 thin/armv7 目 录 (当然 需要 提前 建立 好 该 目录 ) 
下 看 到 include 和 lib 这 两 个 目录 ， 在 使 用 该 库 时 ，include 目 录 下 包含 了 
编译 阶段 需要 用 到 的 头 文 件 ， 而 lib 目 录 下 包含 了 链接 阶段 需要 用 到 的 
静态 库 文件 。 类 似 于 上 面 的 脚本 ， 也 可 以 编译 arm64 以 及 i386 平 台 下 的 
静态 库 ， 最 后 再 用 lipo 工 具 合 并 静态 库 文件 ， 其 实 也 可 以 编写 一 个 
Si ， 具 体 可 以 查看 代码 仓库 中 的 完整 编译 脚 


3.X264 的 交叉 编译 


本 节 将 介绍 X264 开 源 库 的 交叉 编译 ， 和 之 前 的 章节 一 样 ， 在 做 交 
又 编 译 之 前 先 同 大 家 介绍 一 下 X264 库 。 


X264 简 介 


X264 是 一 个 开源 的 H.264/MPEG-4 AVC 视 频 编 码 函 数 库 ， 是 最 好 
的 有 损 视 频 编 码 器 之 一 。 一 般 的 输入 是 视频 帧 的 YUV 表 示 ， 输 出 是 编 
码 之 后 的 H264 的 数据 包 ， 并 且 支 持 CBR、VBR 模 式 ， 可 以 在 编码 的 过 
程 中 直接 改变 码 率 的 设置 ， 这 在 直播 的 场景 中 是 非常 实用 的 (直播 场 
景 下 利用 该 特点 可 以 做 码 率 自 适应 ) 。 


可 以 到 下 面 这 个 网 站 上 获取 X264 的 源码 : 


http://www.videolan.org/developers/x264.html 


当然 也 可 以 直接 执行 : 


git clone git://git.videolan.org/x264.git 


同样 ， 在 根 目录 下 建立 build_armv7.sh 脚 本 ， 然 后 在 里 面 写 入 如 下 


ti 


内 容 


#!/bin/sh 

export AS="gas-preprocessor.pl -arch arm -- xcrun -sdk iphoneos clang" 
export CC="xcrun -sdk iphoneos clang" 

./configure \ 

--enable-static \ 

--enable-pic \ 

--disable-shared \ 

--host=arm-apple-darwin \ 

--extra-cflags="-arch armv7 -mios-version-min=7.0" \ 
--extra-asflags="-arch armv7 -mios-version-min=7.0" \ 
--extra-ldflags="-arch armv7 -mios-version-min=7.0" \ 
--prefix=",/thin/armv7" 

make clean 

make -j8 

make install 


在 执行 上 述 Shell 脚 本 之 前 ， 要 求 在 当前 目录 下 预先 建立 好 
thin/armv7 目 隶 ， 然 后 执行 脚本 ， 这 样 束 可 以 看 到 在 armv7 目 录 下 产生 
的 对 应 的 include 及 lib 目 录 了 ， 当 然 也 有 bin 目 录 ， 各 个 目录 里 面 存 放 的 


内 容 ， 前 面 已 经 介绍 过 很 多 遍 了 ， 在 此 不 再 警 述 。 对 于 arm64 以 及 i386 
架构 平台 的 编译 ， 在 代码 仓库 中 会 有 一 个 Shell 脚 本 ， 它 可 以 编译 出 所 
有 架构 平台 下 的 静态 库 ， 并 且 已 经 用 lipo 工 具 合并 成 了 一 个 静态 库 。 


2.3.3” Android 平台 交叉 编译 的 实践 


1. 深 入 了 解 Android NDK 

Android 原 生 开 发 包 (NDK) 可 用 于 Android 平 台 上 的 C++ 开发 ， 
NDK 不 仅仅 是 一 个 单一 功能 的 工具 ， 还 是 一 个 包含 了 API、 交 又 编 译 
吉 、 链 接 程 序 、 调 斌 器、 构建 工具 等 的 综合 工具 集 。 

下 面 大 致 列举 了 一 下 经 常会 用 到 的 组 件 。 

.ARM、x86 的 交叉 编译 器 

-构建 系统 

-Java 原生 搂 口 头 文件 

.C 库 

.Math 库 

.最 小 的 C++ 库 

.ZLib 压 缩 库 

.POSIX 线 程 

Android 日 志 库 

-Android 原 生 应 用 API 

.OpenGL ES (包括 EGL) 库 

.OpenSL ES 库 


下 面 来 看 一 下 Android 所 提供 的 NDK 根 目录 下 的 结构 。 


-ndk-build: 该 Shell 脚 本 是 Android NDK 构 建 系统 的 起 始点 ， 一 般 
在 项 目 中 仅仅 执行 这 一 个 命令 就 可 以 编译 出 对 应 的 动态 链接 库 了 ， 后 
面 会 有 详细 的 介绍 。 


ndk-gdb: 该 Shell 脚 本 人 允许 用 GUN 调试 器 调试 Native 代 码 ， 并 且 可 
和 可 以 做 到 像 调试 Java 代 码 一 样 调试 Native 的 
代码 。 


.ndk-stack: 该 Shell 脚 本 可 以 帮助 分 析 Native 代 码 毅 省 时 的 堆栈 信 
息 ， 后 续 会 针对 Native 代 码 的 裔 溃 进 行 详细 的 分 析 。 


build: 该 目录 包含 NDK 构 建 系 统 的 所 有 模块 。 


:platforms: 该 目录 包含 支持 不 同 Android 目 标 版 本 的 头 文 件 和 库 文 
A | 用 指定 平台 下 的 头 文件 和 库 


:toolchains: 该 日 录 包 含 目前 NDK 所 支持 的 不 同 平 台 下 的 交叉 编译 
名 一 ARM、x86、MIPS， 其 中 比较 常用 的 是 ARM 和 x86。 构 建 系统 
会 根据 具体 的 配置 选择 不 同 的 交叉 编译 器 。 


在 了 解 了 NDK 的 目录 结构 之 后 ， 接 下 来 详细 了 解 一 下 NDK 的 编译 
脚本 语法 一 一 Android.mk 和 Application.mk 。 


Android.mk 是 在 Android 平 台 上 构建 一 个 C 或 者 C++ 语言 编写 的 程 
序 系 统 的 Makefile 文 件 ， 不 同 的 是 ，Android 提 供 了 一 系列 的 内 置 变量 
来 提供 更 加 方便 的 构建 语法 规则 。Application.mk 文 件 实际 上 是 对 应 用 
程序 本 里 进行 描述 的 文件 ， 它 描述 了 应 用 程序 要 针对 哪些 CPU 架构 打 
、 要 构建 的 是 release 包 还 是 debug 包 以 及 一 些 编译 和 链接 参 
女人 - 主 “ 


(1) Android.mk 
Android.mk 分 为 以 下 几 部 分 。 


-LOCAL _ PATH: =$ (call my-dir) ， 返 回 当前 文件 在 系统 中 的 路 
径 ，Android.mk 文 件 开 始 时 必须 定义 该 变量 


oO 


.include$ (CLEAR_VARS) ， 表 明 清 除 上 一 次 构建 过 程 的 所 有 全 
局 变量 ， 因 为 在 一 个 Makefile 编 译 脚 本 中 ， 会 使 用 大 量 的 全 局 变量 ， 
使 用 这 行 脚 本 表明 需要 清除 掉 所 有 的 全 局 变量 。 


.LOCAL_SRC_FILES， 要 编译 的 C 或 者 Cpp 的 文件 ， 注 意 这 里 不 需 
要 列举 头 文件 ， 构 建 系 统 会 自动 帮助 开发 者 依赖 这 些 文 件 。 


.LOCAL STATIC _ LIBRARIES， 所 依赖 的 静态 库 文 件 。 


LOCAL LDLIBS: =-L$ (SYSROOT) /usr/lib-llog-lOpenSLES- 
1GLESvVv2-IEGL-lz， 指 定编 译 过 程 所 依赖 的 NDK 提 供 的 动态 与 静态 
库 ，SYSROOT 变 量 代表 的 是 NDK_ROOT 下 面 的 目录 
$NDK_ROOT/platforms/android-18/arch-arm， 而 在 这 个 目录 的 usr/ib/ 目 
录 下 有 很 多 对 应 的 so 的 动态 库 以 及 .a 的 静态 库 。 


:LOCAL_CFLAGS， 编 译 C 或 者 Cpp 的 编译 标志 ， 在 实际 编译 的 时 
候 会 发 送 给 编译 器 。 比 如 常用 的 实例 是 加 上 -DAUTO_TEST， 然 后 在 
代码 中 es 以 利用 条 件 判 断 ##fdef AUTO_TEST 来 做 一 些 与 自动 化 测试 
相关 的 事情 。 


:LOCAL_LDFLAGS， 链 接 标 志 的 可 选 列表 ， 当 对 目标 文件 进行 
链接 以 生成 输出 文件 的 上 时候， 将 这 些 标志 带 给 链接 器。 该 指令 与 
LOCAL_LDLIBS 有 些 类 似 ， 一般 情况 下 ， 该 选项 会 用 于 指定 第 三 方 编 
译 的 静态 库 ，LOCAL LDLIBS 经 常用 于 指定 系统 的 库 (比如 log、 
OpenGL ES、EGL 等 ) 


.LOCAL_ MODULE， 该 模块 的 编译 的 目标 名 ， 用 于 区 分 各 个 模 
块 ， 名 字 必 须 是 唯一 并 且 不 包含 空格 的 ， 如 果 编 译 目标 是 so 库 ， 那 么 
该 so 库 的 名 字 束 是 lib 项 目 名 .so。 

include$ (BUILD_ SHARED_LIBRARY) ， 其 实 类 似 的 include 还 
有 很 多 ， 都 是 构建 系统 提供 的 内 置 变量 ， 该 变量 的 意义 是 构建 动态 
库 ， 其 他 的 内 置 变量 还 包括 如 下 几 种 。 


.---BUILD_STATIC_ LIBRARY: 构建 静态 库 。 


.---PREBUILT STATIC LIBRARY: 对 已 有 的 静态 库 进 行 包装 ， 
使 其 成 为 一 个 模块 。 


:---PREBUILT SHARED LIBRARY: 对 已 有 的 动态 库 进 行 包 装 ， 
使 其 成 为 一 个 模块 。 


.---BUILD_EXECUTABLE: 构建 可 执行 文件 。 


构建 系统 提供 的 这 些 内 置 变量 在 哪里 能 够 看 到 呢 ? 它们 都 在 
$NDK_ROOT/build/core/ 目 了 永 下 ， 这 里 面 会 有 所 有 预先 定义 好 的 
Makefile， 开 发 者 include 一 个 变量 ， 实 际 上 束 是 把 对 应 的 Makefile 包 含 
到 Android.mk 中 ， 包 括 前 面 提 到 的 CLEAR_VARS， 其 也 是 该 目录 下 面 
的 一 个 Makefile 。 


include$ (call all-makefiles-under, $ (LOCAL _ PATH) ) ， 也 是 
构建 系统 提供 的 变量 ， 该 命令 会 返回 该 目 永 下 所 有 和子 目 永 的 
Android.mk 列 表 。 


上 面 已 经 清楚 地 讲解 了 Android.mk 里 的 基本 语法 规则 ， 那 么 ,在 
输入 命令 ndk-build 之 后 ， 系 统 到 讨 会 使 用 哪些 编译 絮 以 及 打包 絮 和 链 
接 器 来 编译 我 们 的 程序 呢 ? 


会 使 用 $NDK_ROOT/toolchains/arm-linux-androideabi- 
4.8/prebuilt/darwin-x86_64/bin/ 目 录 (以 Mac 平 台 为 例 ) 下 面 的 gcc、 
g++、ar、]d 等 工具 。 同 样 在 该 目录 下 的 strip 工 具 将 会 用 于 清除 so 包 里 
面 的 源码 ，nm 工 具 可 以 供 开发 者 查看 静态 库 下 的 符号 表 。 


那么 进行 gcc 编 译 的 时 候 ， 头 文件 将 放 在 哪里 呢 ? 


$NDK_ROOT/platforms/android-18/arch-arm/usr/include/ 目 杂 下 会 
存放 编译 过 程 所 依赖 的 头 文件 。 


那么 在 链接 过 程 中 ， 经 常 使 用 的 log 或 者 OpenSL ES 以 及 OpenGL 
ES 等 库 又 将 放 在 哪里 呢 ? 


答案 其 实 已 在 前 文中 提 到 过 ，$NDK_ROOTVplatforms/android- 
18/arch-arm/usr/lib/ 目 录 下 会 存放 链接 过 程 中 所 依赖 的 库 文 件 。 


(2) Application.mk 


Application.mk 分 为 以 下 几 个 部 分 。 


.APP_ABI: =XXX， 这 里 的 XXX 是 指 不 同 的 平台 ， 可 以 选 填 的 有 
x86、mips、armeabi、armeabi-v7a、all 等 ， 值 得 一 提 的 是 ， 铬 选择 all 
则 会 构建 出 所 有 平台 的 so， 如 果 不 填 写 该 项 ， 那 么 将 默认 构建 为 
armeabi 和 平台 下 的 库 。 由 于 工作 的 原因 ， 笔 者 和 Intel 的 员工 打 过 交道 ， 
构建 armeabi-v7a 平 台 的 so 之 所 以 可 以 运行 在 Intel x86 架 构 的 CPU 平 台 
下 ， 是 因为 mmtel 针 对 armeabi 做 了 兼容 ， 但 是 如 果 想 要 应 用 以 最 小 的 能 
耗 、 最 高 的 效率 运行 在 mtel x86 平 台 上 ， 则 还 是 要 指定 构建 的 so 为 x86 
平台 。 因 此 ， 如 果 想 要 提高 App 的 运行 性 能 ， 则 还 需要 编译 出 x86 平 
台 。 类 似 于 前 面 介绍 的 OS 平台 ， 如 果 不 考 虚 模 拟 絮 的 话 ， 则 仪 需要 
构建 armv7 与 arm64 平 台 架 构 ， 那 么 对 于 Android 平 台 呢 ? 对 于 armv7- 
a， 肯 定 是 要 编译 的 ， 至 于 arm64-v8a 这 个 平台 ， 其 实 已 经 占 到 了 50% 
以 上 ， 最 好 也 将 其 单独 编译 出 来 ， 同 时 armv5 这 个 平台 的 设备 还 是 存 
在 的 ， 当 然 不 同 App 在 不 同 架 构 下 的 比例 也 不 尽 相 同 ， 读 者 可 以 根据 
实际 场景 来 决定 编译 的 平台 数目 。 这 里 需要 注意 的 是 ， 编 译 arm64-v8a 
的 时 候 使 用 的 交叉 工具 编译 链 与 之 前 的 armv7 所 在 的 目录 有 比较 大 的 
差异 ， 其 目 了 永存 在 于 : 


‘$NDK_ROOT/toolchains/aarch64-linux-android-4.9/prebuilt/darwin- 
x86_64/bin 


-编译 过 程 中 使 用 的 编译 工具 都 存在 于 上 述 日 隶 下 。 


-APP_STL: =gnustl_static，NDK 构 建 系统 提供 了 由 Android 系 统 给 
出 的 最 小 C++ 运行 时 库 (/system/lib/libstdc++.so) 的 C++ 头 文件 。 然 
而 ，NDK 帝 有 另 一 个 C++ 实现 ， 开 发 者 可 以 在 目 己 的 应 用 程序 中 使 用 
或 链接 它 ， 定 义 APP_STL 可 选择 它们 中 的 一 个 ， 可 选项 包括 : 
stlport_static 、 stlport_shared 、 gnust] static ° 


.APP_CPPFLAGS: =-std=gnu++11-fexceptions， 指 定编 译 过 程 的 
flag， 可 以 在 该 选项 中 开局 exception rtti 等 特性 ， 但 是 为 了 效率 考虑 ， 
最 好 关闭 rtti。 


.NDK_TOOLCHAIN_VERSION=4.8， 指 定 交 叉 工 具 编译 链 里 面 的 
版 本 号 ， 这 里 指定 使 用 4.8。 


:APP_PLATFORM: =android-9， 指 定 创 建 的 动态 库 的 平台 。 


:APP_OPTIM: =release， 该 变量 是 可 选 的 ， 用 来 定 
义 “release” 或 “debug”，“Trelease” 模 式 是 默认 有 的， 并且 会 生成 高 度 优 化 
的 二 进 制 代码 ; “debug” 模 式 生 成 的 是 未 优化 的 二 进 制 代 码 ， 但 是 可 以 
全 测 出 很 多 的 BUG， 经 和 常用 于 调试 阶段 ， 也 相当 于 在 ndk-build 指 令 后 
边 直接 加 上 参数 NDK_DEBUG=1。 


2. 如 何 交 叉 编 译 


上 文 讲 解 了 NDK 的 结构 ， 以 及 构建 系统 的 基本 语法 。 本 节 将 直接 
对 LAME、FDK_AAC、X264 这 三 个 库 进 行 交 叉 编 译 。 


(1) LAME 的 交叉 编译 
在 Android 的 编译 中 ， 一 般 情 认 下 会 使 用 一 个 Shell 脚 本 文件 ， 指 定 


好 编译 器 里 面 的 各 个 工具 ， 然 后 把 对 应 的 Configure 的 命令 与 选项 开关 
配置 好 ， 最 后 执行 该 Shell 脚 本 : 


#!/bin/bash 

NDK_ROOT=/Users/apple/soft/android/android-ndk-r9b 
PREBUILT=$NDK_ROOT/toolchains/arm-linux-androideabi-4.6/prebuilt/darwin-x86_64 
PLATFORM=$NDK_ROOT/platforms/android-9/arch-arm 

export PATH=$PATH:$PREBUILT/bin:$PLATFORM/USr/include: 


export LDFLAGS="-L$PLATFORM/USr/1ib -L$PREBUILT/arm-1linux-androideabi/1ib 
-march=armv7-a" 
export CFLAGS="-I$PLATFORM/UsSr/include -march=armv7-a -mfloat-abi=softfp - 
mfpu=vfp 
-ffast-math -02" 


export CPPFLAGS="$CFLAGS" 
export CFLAGS="$CFLAGS" 

export CXXFLAGS="$CFLAGS" 
export LDFLAGS="$LDFLAGS" 


export AS=$PREBUILT/bin/arm-linux-androideabi-as 

export LD=$PREBUILT/bin/arm-linux-androideabi-1]d 

export CXX="$PREBUILT/bin/arm-linux-androideabi-g++ --Ssysroot=${PLATFORM}" 

export CC="$PREBUILT/bin/arm-linux-androideabi-gcc --sysroot=${PLATFORM} 
-march=armv7-a " 

export NM=$PREBUILT/bin/arm-linux-androideabi-nm 

export STRIP=$PREBUILT/bin/arm-linux-androideabi-strip 

export RANLIB=$PREBUILT/bin/arm-linux-androideabi-ranlib 

export AR=$PREBUILT/bin/arm-linux-androideabi-ar 


./configure --host=arm-linux \ 
--disable-shared \ 
--disable-frontend \ 
--enable-static \ 
--prefix=./armv7a 


make clean 
make -j8 
make install 


下 面 就 来 针对 该 脚本 的 每 一 行 命令 进行 详细 解释 。 


第 一 部 分 是 设置 NDK_ROOT， 并 且 声 明 platform 和 prebuilt， 最 终 
配置 可 在 环境 变量 中 查看 。 


第 二 部 分 主要 是 声明 CFLAGS 与 LDFLAGS， 其 目的 是 在 编译 和 链 
接 阶 段 找到 正确 的 头 文件 与 链接 到 正确 的 库 文 件 。 这 里 需要 特别 注意 
的 是 ， 在 这 两 个 设置 的 后 边 都 加 上 了 -march=armv7-a， 这 相当 于 是 让 
编译 絮 知 道 要 编译 的 日 标 平 台 是 armv7-a 。 


第 三 部 分 是 声明 CC、AS、AR、LD、NM、STRIP 等 工具 ， 具 体 
每 一 个 工具 是 做 什么 用 的 ， 前 面 都 已 经 介绍 过 了 ， 如 果 要 编译 
armv5、X86 或 者 arm64-v8a， 那 么 在 代码 仓库 中 会 提供 全 量 编译 的 Shell 
脚本 文件 。 

第 四 部 分 殉 是 使 用 LAME 本 号 的 Configure 进 行 编译 裁剪 。 

第 五 部 分 就 是 使 用 标准 的 编译 链接 和 安装 。 

最 终 执 行 脚 本 成 功 之 后 ， 可 以 看 到 在 指定 的 Prefix 目 录 下 面 ， 包 含 
了 lib 和 include 目 孙 ， 里 面 分 别 是 静态 库 文件 和 头 文件 ， 这 两 个 目录 的 
作用 在 前 面 已 经 说 过 很 多 遇 了 ， 在 此 不 再 痪 述 。 


(2) FDK_AAC 的 交叉 编译 


#!/bin/bash 

./configure --host=armv7a \ 
--enable-static \ 
--disable-shared \ 
--prefix=./armv7ia/ 


make clean 


make -j8 
make install 


注 : 这 里 没有 给 出 声明 NDK_ROOT 以 及 各 个 编译 工具 的 代码 。 


其 实 FDK_AAC 的 交叉 编译 并 没有 什么 可 解说 的 ， 配 置 好 环境 变 
量 之 后 ， 执 行 Configure， 然 后 安装 就 可 以 了 。 


(3) X264 的 交叉 编译 


#!/bin/bash 

./configure --prefix=$PREFIX \ 
--enable-static \ 

--enable-pic \ 

--enable-strip \ 

--disable-cli \ 


--disable-asm \ 
--extra-cflags="-march=armv7-a -02 -mfloat-abi=softfp -mfpu=neon" \ 


--host=arm-linux \ 
--cross-prefix=$PREBUILT/bin/arm-linux-androideabi- \ 


--Sysroot=$PLATFORM 


注 : 这 里 没有 给 出 声明 NDK_ROOT 以 及 各 个 编译 工具 的 代码 。 

对 于 X264 的 编译 裁剪 ， 这 里 有 如 下 几 个 关键 点 。 

.extra-cflags 选 项 的 配置 。 针 对 armv7-a 的 CPU 打开 了 NEON 的 优化 
运行 指令 ， 并 且 打 开 了 02 编 译 优 化 ， 这 是 非常 重要 的 一 点 。 


三 


.--disable-asm 选 项 的 配置 。 如 果 不 末 用 掉 asm 指 令 ， 则 意味 着 将 会 


禁止 neon 的 指令 。 


2.3.4 使 用 LAME 编 码 MP3 文 件 


2.3.3 节 为 两 个 平台 交叉 编译 了 多 个 库 ， 本 节 就 以 上 文 编译 出 来 的 
LAME 库 进行 编码 工作 。 本 节 要 实现 的 目标 是 ， 在 添加 好 C++ 支持 的 
项 目 中 加 入 编码 MP3 文 件 的 功能 。 当 点 击 按钮 的 时 候 ， 输 入 的 是 一 个 
PCM 文 件 的 路 径 和 一 个 MP3 的 路 径 ， 等 运行 完毕 ， 电 脑 上 的 播放 器 直 
接 就 可 以 播放 该 MP3 文 件 。 


首先 ， 用 一 个 C++ 的 类 来 实现 其 业务 逻辑 ， 输 入 束 是 两 个 char 指 针 
类 型 的 路 径 ， 编 码 成 功 之 后 ， 输 出 一 行 编 码 成 功 的 Log， 然 后 在 之 前 
的 项 目 基础 上 集成 进 这 段 代 码 ， 再 运行 并 测试 。 

1. 编 码 工 具 类 的 编写 
首先 新 建 两 个 文件 : mp3_encoderh 和 mp3_encoder.cpp。 


先 看 一 下 头 文件 应 该 如 何 编写 ， 头 文件 其 实 就 是 用 于 定义 该 类 对 
外 提供 的 接口 。 

这 里 提供 的 是 一 个 Init 接 口 ， 输 入 的 是 一 个 PCM FilePath 和 一 个 
MP3 FilePath， 会 判定 输入 文件 是 否 存 在 、 初 始 化 LAME 以 及 初始 化 输 
出 文件 的 资源 ， 返 回 值 是 该 函数 是 否 成 功 初始 化 了 所 有 的 相关 资源 ， 
成 功 则 返回 true， 否 则 返回 false。 


此 外 ， 还 要 再 提供 一 个 encode 方 法 ， 负 责 读 取 PCM 数 据 ， 并 且 调 
用 LAME 进 行 编码 ， 然 后 将 编码 之 后 的 数据 写 入 文件 。 


四 ee 
资源 . 


按照 上 述 分 析 ， 建 立 头 文件 如 下 : 


class Mp3Encoder { 
private: 
FILE* pcmFile; 
FILE* mp3File,; 
lame_t lameClient; 


public: 
Mp3Encoder(); 
~Mp3Encoder(); 
int Init(const char* pcmFilePath, const char *mp3FilePath, int 
sampleRate, int channels, int bitRate); 
void Encode( ); 
void Destory(); 


}; 


既然 头 文 件 已 经 定义 好 了 ， 接 下 来 谍 一 起 来 实现 。 


首先 是 Init 方 法 的 实现 ， 以 读 二 进 制 文件 的 方式 打开 PCM 文 件 ， 以 
0 然后 初始 化 LAME。 具 体 代码 
Hi: 


int Mp3Encoder::Init(const char* pcmFilepPath, const char * 
mp3FilePath, int sampleRate, int channels, int bitRate) { 
int ret = -1; 
pcmFile = fopen(pcmFilePath, "rb"),; 
if(pcmFile) { 
mp3File = fopen(mp3FilePath, "wb"); 
if(mp3File) { 
lameClient = lame_init(); 
lame_set_in_samplerate(lameClient, sampleRate); 
lame_set_out_samplerate(lameClient, sampleRate); 
lame_set_num _ channels(lameClient, channels); 
lame_set_brate(lameClient, bitRate / 1000); 
lame_init_params(lameClient); 
ret = 0; 


} 


return ret; 


其 次 是 Encode 方 法 的 实现 ， 函 数 主体 是 一 个 循环 ， 每 次 都 会 读 取 
一 段 bufferSize 大 小 的 PCM 数 据 buffer， 然 后 再 编码 该 buffer， 但 是 在 编 
码 buffer 之 前 得 把 该 buffer 的 左右 声 道 拆 分 开 ， 再 送 入 到 LAME 编 码 
器 ， 最 后 将 编码 之 后 的 数据 写 入 MP3 文 件 中 。 上 有 具体 代码 如 下 : 


void Mp3Encoder::Encode() { 
int bufferSize = 1024 * 256; 
short* buffer = new short[bufferSize / 2]; 
short* leftBuffer = new Short[bufferSize / 4]; 
short* rightBuffer = new short[bufferSize / 4]; 
unsigned char* mp3_buffer = new unsigned char[bufferSizel]; 
size_t readBufferSize = 0; 
while ((readBufferSize = fread(buffer, 2, bufferSize / 2, pcmFile)) > 0) { 
for (int i = 0; i < readBufferSize; i++) { 
if (i % 2 == 0) { 


leftBuffer[i / 2] = buffer[i]; 
} else { 

rightBuffer[i / 2] = buffer[i]; 
} 


size_t wroteSize = lame _ encode buffer(lameClient, (Short 
int *) leftBuffer, (Short int *) rightBuffer, 
(int)(readBufferSize / 2), mp3_buffer, bufferSize); 

fwrite(mp3_buffer, 1, wroteSize, mp3File); 


} 

delete[] buffer; 
delete[] leftBuffer,; 
delete[] rightBuffer; 
delete[] mp3_buffer ， 


最 后 是 Destroy 方 法 ， 关 闭 PCM 文 件 ， 关 闭 MP3 文 件 ， 销 毁 
LAME。 有 具体 代码 如 下 : 


void Mp3Encoder: :Destory() { 
if(pcmFile) { 
fclose(pcmFile); 


} 

if(mp3File) { 
fclose(mp3File); 
lame_close(lameClient); 


} 
} 


实现 结束 之 后 ， 接 下 来 就 是 把 该 类 集成 到 iOS 和 Android 客 户 端 。 
2.iOS 集 成 

目 和 完 打 开 2.1 节 开发 的 项 目 一 一 添加 了 了 C++ 支持 的 OS 工程 。 

然后 在 ViewControllermm 中 直接 实例 化 C++ 类 型 的 类 


Mp3Encoder， 将 vocal.pcm 的 文件 放 入 沙 盒 中 ， 利 用 下 面 这 行 代码 获取 
PCM 的 路 径 : 


[[[NSBundle mainBundle] bundlePath] stringByAppendingPathComponent: 
@"vocal.pcm"]; 


接着 利用 下 面 的 代码 获取 最 终 要 写 入 的 MP3 文 件 的 路 径 : 


NSArray *paths = NSSearchPathForDirectoriesInDomains(NSDocumentDirectory， 
NSUserDomainMask, YES); 

NSString *documentsDirectory = [paths objectAtIndex:0]; 

[documentsDirectory stringByAppendingPathComponent:@"vocal.mp3"]; 


最 后 直接 调用 Mp3Encoder 类 的 encode 方 法 ， 御 码 首 频 义 件 。 最 终 
编码 方法 执行 结束 ， ee 销毁 所 有 
资源 。 然 后 运行 程序 ， 凡 击 编码 按钮 ， 待 编码 结束 之 后 ， 通 过 
Xcode/device 中 的 Download 沙 盒 功 能 ， 将 Mp3 文件 提取 出 来 读者 可 
以 使 用 电脑 默认 的 播放 器 播放 该 MP3 文 件 ， 试 试看 是 否 能 正常 播放 。 


3.Android 集 成 
首先 打开 2.2 节 开发 的 项 目 添加 了 了 C++ 支持 的 Android 工 程 。 


然后 在 com.phuket.tour.studio 包 下 修改 Mp3Encoder 文 件 ， 并 写 入 二 
个 native 方 法 : 


public native int init(String pcmPath, int audioChannels, int bitRate, int 
sampleRate, String mp3Path); 

public native void encode(); 

public native void destroy(); 


a Pe 并 且 在 实现 的 C++ 文件 中 实现 这 三 个 
凌 。 


在 init 方 法 中 实例 化 Mp3Encoder 类 ， 然 后 调用 初始 化 方法 : 


const char* pcmPath = env->GetStringUTFChars(pcmPathParam, NULL); 
const char* mp3Path = env->GetStringUTFChars(mp3PathParam, NULL); 
encoder = new Mp3Encoder(); 

encoder->Init(pcmPath, mp3Path, sampleRate, channels, bitRate); 
env->ReleaseStringUTFChars(mp3PathParam，mp3Path ) ， 
env->ReleaseStringUTFChars(pcmPathParam，pcmPath ) ， 


在 encode 方 法 中 直接 调用 Mp3Encoder 的 encode 方 法 ; 在 destroy 方 
法 中 则 调用 Mp3Encoder 的 destroy 方 法 ; 最 后 ， 修 改 Android.mk 文 件 ， 
将 最 新 的 C++ 文件 加 入 LOCAL_SRC 中 ， 并 且 在 include 的 路 径 中 增加 
LAME 的 头 文件 所 在 的 路 径 : 


LOCAL_C_INCLUDES := 
$(LOCAL_ ee ./3rdparty/lame/include 


ee 还 需要 在 链接 阶段 加 入 编译 出 来 的 静态 库 ， 因 此 需要 键入 
以 下 命令 : 


LOCAL_LDLIBS += -L$(LOCAL_ PATH)/3rdparty/lame/lib -lmp3lame 


这 样 重新 执行 ndkcbuild 命 令 就 可 以 将 最 新 的 so 库 打 出 来 了 。 


现在 ， 在 MainActivity 中 ， 传 入 正确 的 输入 路 径 和 输出 路 径 (需要 
提前 准备 一 段 PCM 数 据 放 入 输入 路 径 下 面 ) ， 等 编码 结束 之 后 ， 取 出 
输出 路 径 的 MP3 文 件 ， 在 电脑 上 播放 ， 确 认 一 下 是 否 正确 。 


[1] so 库 是 gcc 或 g++ 编 译 过 后 形成 的 一 种 动态 库 ， 节 终 可 以 被 加 载 到 程 
序 中 使 用 


2.4 本章 小 结 


本 章 主 要 介绍 了 如 何 创 建 一 个 Android 项 目 和 一 个 iOS 项 目 ， 然 后 
为 这 两 个 项 目 增加 C++ 支持 ， 接 着 讨论 了 交叉 编译 ， 最 后 利用 交叉 编 
译 出 来 的 LAME 库 ， 在 两 个 平台 上 完成 编码 MP3 音 频 文 件 的 功能 。 本 
章 的 内 容 是 音 视 频 开 发 的 基础 内 容 ， 和 希望 读者 熟练 掌握 。 


第 3 章 “FFmpeg 的 介绍 与 使 用 


若 要 讲解 音 视频 的 开发 ， 首 先 不 得 不 提 开 源 框架 FFmpeg。 该 开源 
框架 为 音 视频 开发 者 们 提供 了 非常 大 的 帮助 ， 其 也 是 全 世界 的 音 视 频 
开发 工程 师 都 应 该 掌握 的 工具 。FFmpeg 是 一 套 可 以 用 来 记录 、 处 理 数 
字音 频 、 视 频 ， 并 将 其 转换 为 流 的 开源 框架 ， 采 用 LPL 或 GPL 许 可 
证 ， 提 供 了 录制 、 转 换 以 及 流 化 音 视频 的 完整 解决 方案 。 它 的 可 移植 
性 或 者 说 跨 平 台 特 性 非常 强大 ， 可 以 用 在 Linux 服 务 器 、PC (包括 
Windows、Mac OS X 等 ) 、 移 动 端 设备 (Android、iOS 等 移动 设备 ) 
等 平台 。 名 称 中 的 mpeg 来 自视 频 编码 标准 MPEG， 而 前 级 FF 是 Fast 
Forward 的 首 字 母 缩写 。 本 章 会 从 编译 开始 讲解 ， 然 后 介绍 命令 行 工 具 
的 使 用 ， 接 着 会 介绍 FFmpeg 在 代码 层面 提供 给 开发 者 的 API， 最 后 会 
从 源码 的 角度 分 析 一 下 整个 FFmpeg 框 架 ， 现 在 就 让 我 们 开始 吧 。 


3.1 FFmpeg 的 编译 与 命令 行 工 具 的 使 用 
3.1.1 FFmpeg 的 编译 


1.FFmpeg 编 译 选 项 详解 


首先 到 FFmpeg 官 网 上 下 载 稳定 版 本 的 FFmpeg 源 人 码 ， 本 章 将 会 从 下 
载 到 的 最 干净 的 代码 开始 逐步 进行 操作 。 然 后 将 下 载 的 源码 解压 到 一 
个 目 永 中 ，FFmpeg 与 大 部 分 GNU 软 件 的 编译 方式 类 似 ， 都 是 通过 
configure 脚 本 来 实现 编译 前 定制 的 ， 这 种 方式 允许 用 户 在 编译 前 对 软件 
进行 裁 前 ， 同 时 通过 对 最 终 运行 到 的 系统 以 及 目标 平台 的 配置 来 决定 
对 某 些 模 块 设 定 合 适 的 配置 。configure 脚 本 运行 完毕 之 后 ， 会 生成 
config.mk 和 config.h 这 两 个 文件 ， 分 别 作 用 到 makefile 和 源 代码 的 层次 ， 
由 这 两 个 部 分 协同 实现 对 编译 选项 的 控制 。 所 以 下 面 先 来 看 看 configure 
的 脚本 ， 可 以 利用 它 的 help 命 令 来 查看 其 到 的 提供 了 哪些 选项 ? 


./configure -help 


.标准 选项 : GNU 软 件 例 行 配置 项 目 ， 例 如 安装 路 径 、--prefix=... 
等 。 

编译、 链接 选项 : 默认 配置 是 生成 静态 库 而 不 是 生成 动态 库 ， 例 
如 --disable-static、--enable-shared 等 。 

.可 执行 程序 控制 选项 : 决定 是 否 生成 FFmpeg、fftplay、ffprobe 和 


ffserver 等 。 


.模块 控制 选项 : 裁剪 编译 模块 ， 包 括 整 个 库 的 裁剪 ， 例 如 -- 
disable-avdevice; 一 组 模块 的 角 选 ， 例 如 --disable-decoders; 单个 模块 
的 裁剪 ， 例 如 --disable-demuxer。 


:能力 展示 选项 ， 列 出 当前 源 代码 支持 的 各 种 能 力 集 ， 例 如 --list- 


decoders 、--list-encoders ° 


-其 他 : 允许 开发 者 深度 定制 ， 如 交叉 编译 环境 配置 、 目 定义 编译 
器 参数 的 设 定 等 。 


人 大 体 了 解 一 下 FFmpeg 的 整体 结构 ， 如 图 3-1 
坟 。° 


libswscale 
libavformat 
libswresample 
libavuiil 


libavfilter 


libavcodec 
sj weiiejtero 
图 3-1 


下 面 这 段 代码 是 一 个 配置 实例 ， 用 于 实现 运行 于 Android 系 统 中 的 
FFmpeg 库 的 编译 : 


./configure -prefix=， \ 

--Cross-prefix=$NDK_TOOLCHAIN_PREFIX \ 

--enable-cross-compile \ 

--arch=arm --target-os=linux \ 

--disable-static -enable-shared \ 

--disable-ffmpeg --disable-ffplay -disable-ffserver -disable-ffprobe 


默认 的 编译 会 生成 4 个 可 执行 文件 和 8 个 静态 库 。 可 执行 文件 包括 
用 于 转 码 、 推 流 、Dump 媒 体 文件 的 fftmpeg、 用 于 播放 媒体 文件 的 
I 、 用 于 获取 媒体 文件 信息 的 ffprobe， 以 及 作为 简单 流 媒 体 服 务 器 
‘Jffserver ° 


8 个 静态 库 其 实 就 是 FFmpeg 的 8 个 模块 ， 具 体 包 括 如 下 内 容 。 


“AVUtil: 核心 工具 库 ， 该 模块 是 最 基础 的 模块 之 一 ， 下 面 的 许多 
其 他 模块 都 会 依赖 该 库 做 一 些 基本 的 音 视 频 处 理 操 作 。 


:AVFormat: 文件 格式 和 协议 库 ， 该 模块 是 最 重要 的 模块 之 一 ， 封 
装 了 Protocol 层 和 Demuxer、Muxer 层 ， 使 得 协议 和 格式 对 于 开发 者 来 说 


征 透 明 的 。 


.AVCodec: 编 解 码 库 ， 该 模块 也 是 最 重要 的 模块 之 一 ， 封 装 了 
Codec 层 ， 但 是 有 一 些 Codec 是 具备 目 己 的 License 上 时，FFmpeg 是 不 会 默 
认 添 加 像 libx264、FDK-AAC、1lame 等 库 的 ， 但 是 FFmpeg 就 像 一 个 平台 
一 样 ， 可 以 将 其 他 的 第 三 方 的 Codec 以 插件 的 方式 添加 进来 ， 然 后 为 开 
发 者 提供 统一 的 接口 。 


-AVFilter: 音 视 频 滤 镜 库 ， 该 模块 提供 了 包括 音频 特效 和 视频 特效 
的 处 理 ， 在 使 用 FFmpeg 的 API 进 行 编 解 码 的 过 程 中 ， 直 接 使 用 该 模块 
为 音 视 频数 据 做 特效 处 理 是 非常 方便 同时 也 非常 高 效 的 一 种 方式 。 


-AVDevice: 输入 输出 设备 库 ， 比 如 ， 需 要 编译 出 播放 声音 或 者 视 
频 的 工具 ffplay， 束 需要 确保 该 模块 是 打开 的 ， 同 时 也 需要 libSDL 的 预 
先 编译 ， 因 为 该 设备 模块 播放 声 首 与 播放 视频 使 用 的 都 是 libSDL 库 。 


声 道 数 、 数 据 格式 、 采 样 率 等 多 种 基本 信息 的 转换 。 


‘SWScale: 该 模块 是 将 图 像 进行 格式 转换 的 模块 ， 比 如 ， 可 以 将 
YUV 的 数据 转换 为 RGB 的 数据 。 


-PostProc: 该 模块 可 用 于 进行 后 期 处 理 ， 当 我 们 使 用 AVFilter 的 时 


J 要 打开 该 模块 的 开关 ， 因 为 Filter 中 会 使 用 到 该 模块 的 一 些 基 础 函 


如 条 是 比较 老 的 FFmpeg 和 版 本 ， 那 么 有 可 能 还 会 编 详 出 来 
avresample 模 块 ， 该 模块 其 实 也 是 用 于 对 音频 原始 数据 进行 重 采样 ， 但 
了 ， 不 再 推荐 使 用 该 库 ， 而 是 使 用 swrresample 库 
进行 车 we。 


如 何 为 FFmpeg 平 台 引 入 第 三 方 编 解 码 库 呢 ? 下 面 就 以 最 常用 的 
LAME、X264、FDK-AAC 进 行 举例 。 前 面 的 章节 中 已 经 介绍 了 这 三 个 
库 在 Android 和 iOS 平 台 上 的 交叉 编译 ， 现 在 就 假设 已 经 交叉 编译 出 了 
LAME、X264、FDK-AAC 的 静态 库 与 头 文 件 ， 并 且 在 FFmpeg 的 源码 目 
了 永 下 建立 了 external-libs 目 孙 ， 还 在 其 中 建立 了 LAME、X264、FDK- 
AAC 三 个 目录 ， 每 个 目录 中 的 结构 都 包含 了 include 和 1ib 两 个 目录 ， 并 
且 将 编译 出 来 的 头 文 件 和 静态 库 文 件 分 别 都 放 到 了 这 两 个 目 孙 下 面 。 


现在 修改 编译 脚本 如 下 。 
新 增 X264 编 码 絮 需要 新 增 以 下 脚本 : 


--enable-muxer=h264 和 

--enable-encoder=1libx264 \ 

--enable-libx264 和 
--extra-cflags=”-Iexternal-libs/x264/include” \ 
--extra-ldflags=”-Lexternal-libs/x264/1ib” \ 


新 增 LAME 编 码 恬 需要 新 增 以 下 脚本 : 


--enable-muxer=mp3 \ 
--enable-encoder=libmp3lame \ 
--enable-libmp3lame \ 
--extra-cflags=”-Iexternal-libs/lame/include” \ 
--extra-ldflags=”-Lexternal-libs/lame/lib” \ 


新 增 FDK-AAC 编 码 器 需要 新 增 以 下 脚本 : 


--enable-encoder=libfdk_aac \ 

--enable-libfdk_aac \ 
--extra-cflags=”-Iexternal-libs/fdk-aac/include” \ 
--extra-ldflags=”-Lexternal-libs/fdk-aac/lib” \ 


读者 可 以 按照 自己 的 应 用 场景 ， 把 需要 编译 进来 的 第 三 方 库 以 修 
改 脚本 文件 的 方式 进行 编译 ， 然 后 以 命令 行 模式 或 者 以 API 调 用 的 方式 
进行 使 用 。 

在 FFmpeg 中 ， 有 一 个 类 型 的 filter 称 为 bit stream filter， 要 想 在 开发 


过 程 中 使 用 该 filtter， 则 需要 在 编译 的 过 程 中 打开 它 。 该 filter 存 在 的 意 
义 主 要 是 应 对 某 些 格式 的 封 半 较 换行 为 。 比 如 AAC 编 码 ， 香 见 的 有 两 


种 封装 格式 : 一 种 是 ADTS 格 式 的 流 ， 是 AAC 定 义 在 MPEG2 里 面 的 格 
式 ; 另外 一 种 是 封装 在 MPEG4 里 面 的 格式 ， 这 种 格式 会 在 每 一 帧 前 面 
拼接 一 个 用 声 道 、 采 样 率 等 信息 组 成 的 头 。 开 发 者 完全 可 以 手动 拼接 
该 头 信 息 ， 即 将 AAC 编 码 需 输 出 的 原始 码 流 (ADTS 头 +ES 流 ) 封装 进 
MP4、FLV 或 者 MOV 等 格式 的 容器 中 时 ， 需 要 先 将 ADTS 尖 转换 为 
MPEG-4 AudioSpecficConfig (描述 了 编码 器 的 配置 参数 ) 头 ， 并 去 掉 
原始 码 流 中 的 ADTS 头 〈 只 剩 下 ES 流 ) 。 但 是 使 用 FFmpeg 提 供 好 的 
aac_adtstoasc 类 型 的 bit stream filter 可 以 非常 方便 地 进行 转换 ，FFmpeg 
为 开发 者 隐藏 了 实现 的 细节 ， 并 且 提 供 了 更 好 的 代码 可 读 性 。 若 想 要 
正常 使 用 这 个 filter， 则 需要 在 编译 过 程 中 打开 下 面 这 个 选项 : 


--enable-bsf=aac_adtstoasc 


AAC 的 bit stream filter 和 党 第 应 用 在 编码 的 过 程 中 。 与 音频 的 AAC 编 
码 格式 相对 应 的 是 视频 中 的 H264 编 码 ， 它 也 有 两 种 封装 格式 : 一 种 是 
MP4 封 装 的 格式 ， 一 种 是 裸 的 H264 格 式 (一 般 称 为 annexb 封 装 格 
式 ) 。FFmpeg 中 也 提供 了 对 应 的 bit stream filter， 称 为 
H264_mp4toannexb， 可 以 将 MP4 封 装 格式 的 H264 数 据 包 转换 为 annexb 
封装 格式 的 H264 数 据 (其 实 束 是 裸 的 H264 的 数据 ， 包 。 当 然 ， 也 可 以 
手动 写 代 码 来 实现 这 件 事 情 ， 但 是 既然 FFmpeg 提 供 了 这 样 好 用 的 模 
块 ， 我 们 为 什么 不 用 呢 ? 要 使 用 它 也 只 需要 在 编译 过 程 中 打开 下 面 这 
个 选项 即 可 : 


--enable-bsf=h264_mp4toannexb 


H264 的 bit stream filter 常 常 应 用 于 视频 解码 过 程 中 ， 特 别 是 后 期 在 
讲解 使 用 各 个 平台 上 提供 的 硬件 解码 历时 ， 一 定 会 用 到 该 bit stream 


filter ° 
2.FFmpeg 的 交叉 编译 


第 2 章 已 经 介绍 了 交叉 编译 的 原理 ， 并 且 交 叉 编 译 出 了 LAME、 
FDK_AAC、X264 等 第 三 方 库 ， 本 章 也 已 经 介绍 了 FFmpeg 中 Configure 
的 大 部 分 关键 语法 与 定义 ， 因 此 这 里 就 直接 开始 交叉 编译 FFmpeg 吧 ! 
不 过 ， 对 应 于 Android 和 iOS 平 台 会 有 一 些 通用 的 配置 选项 ， 这 里 移 列 
出 通用 的 配置 选项 ， 代 码 如 下 : 


CONFIGURE_FLAGS=--disable-shared \ 
--enable-static \ 
--disable-stripping \ 
--disable-ffmpeg \ 
--disable-ffplay \ 
--disable-ffserver \ 
--disable-ffprobe \ 
--disable-avdevice \ 
--disable-devices \ 
--disable-indevs \ 
--disable-outdevs \ 
-disable-debug \ 
--disable-asm \ 
-disable-yasm \ 
--disable-doc \ 
-enable-small AN 

-enable-dct \ 

--enable-dwt \ 

-enable-lsp \ 

--enable-mdct \ 
--enable-rdft \ 

--enable-fft \ 
--enable-version3 \ 
--enable-nonfree \ 
--disable-filters \ 
--disable-postproc \ 
--disable-bsfs AN 
-enable-bsf=aac_adtstoasc \ 
--enable-bsf=h264_mp4toannexb \ 
--disable-encoders \ 
-enable-encoder=pcm_si6le \ 
--enable-encoder=aac \ 
-enable-encoder=libvo_aacenc \ 
--disable-decoders \ 
-enable-decoder=aac \ 
-enable-decoder=mp3 \ 
--enable-decoder=pcm_si6le \ 
--disable-parsers \ 
--enable-parser=aac \ 
--disable-muxers \ 
--enable-muxer=flv \ 
--enable-muxer=wav \ 
--enable-muxer=adts \ 
--disable-demuxers \ 
--enable-demuxer=flv \ 
--enable-demuxer=wav \ 
--enable-demuxer=aac \ 
--disable-protocols \ 
--enable-protocol=rtmp \ 
--enable-protocol=file \ 
--enable-libfdk_aac \ 
-enable-l]ibx264 \ 
--enable-cross-compile \ 
--prefix=$INSTALL_DIR 


叮 以 看 到 为 了 达到 最 小 的 包 体积 ， 需 要 先 关 掉 所 有 的 模块 ， 然 后 
再 打开 具体 的 编 解 码 砷 、 解 析 事 、 解 复 用 右 、 协 议 ， 并 且 这 里 开局 了 


两 个 第 三 方 的 Codec: 一 个 是 EDK_AAC; 另外 一 个 是 X264。 此 处 还 关 
闭 了 命令 行 工 具 与 帮助 文档 、 输 入 输出 设备 、 动 态 库 生 成 ， 同 时 还 打 
开 了 静态 库 的 生成 。 由 于 要 进行 交叉 编译 ， 所 以 要 在 倒数 第 二 行 打 开 
交叉 编译 的 选项 ， 在 最 后 一 行 指定 安装 库 的 目标 目录 。 


对 于 Android 平 台 来 讲 ，Shell 脚 本 需要 添加 如 下 内 容 : 


ANDROID_NDK_ROOT=/Users/apple/soft/android/android-ndk-r9b 
PREBUILT=$ANDROID_NDK_ROOT/toolchains/arm-linux-androideabi-4.8/prebuilt/darwin- 
x86_64 

PLATFORM=$ANDROID_NDK_ROOT/platforms/android-8/arch-arm 

./configure \ 

$CONFIGURE_FLAGS \ 

--target-os=]inux \ 

--arch=arm \ 

--cross-prefix=$PREBUILT/bin/arm-linux-androideabi- \ 

--Sysroot=$PLATFORM \ 

--extra-cflags="-marm -march=armv7-a -Ifdk_aac/include -Ix264 /include" \ 
--extra-ldflags="-marm -march=armv7-a -Lfdk_aac/lib -Lx264 /lib" 


可 以 看 到 ， 上 壕 脚 本 中 指定 了 运行 的 平台 与 架构 ， 指 定 了 编译 
器 、 链 接 器 的 前 组， 以 用 于 执行 真正 的 编译 与 链接 操作 ， 然 后 给 出 
sysroot 和 和 编译、 链接 参 数 。 这 里 是 以 armv7a 作 为 编译 目标 架构 的 ， 如 
有 末 读 者 想 目 行 编译 armv8 或 者 x86 的 平台 ， 可 以 碍 看 代码 仓库 中 的 编译 
脚本 ， 这 里 不 再 列举 。 


对 于 iOS 平 台 来 讲 ，Shell 脚 本 需要 添加 如 下 内 容 : 


./configure \ 

$CONFIGURE_FLAGS \ 

--target-os=darwin 

--Cc=xcrun -sdk iphoneos clang \ 

--arch=armv7 \ 

--extra-cflags="-arch armv7 -mios-version-min=7.0 -Ifdk_aac/include 
-IX264/include" \ 

--extra-ldflags="-arch armv7 -mios-version-min=7.0 -Lfdk_aac/lib -Lx264 /lib" 


可 以 看 到 ， 上 述 脚 本 中 设置 了 编译 器 以 及 日 标 运行 平台 ， 需 要 说 
明 的 是 ， 这 里 指定 了 最 小 的 0S 的 运行 平台 是 7.0， 否 则 将 这 个 库 集 成 到 
Xcode 中 的 时 候 会 遇 到 平台 不 匹配 的 警告 ， 此 外 ， 需 要 注意 的 是 这 里 并 
没有 打开 bitcode， 这 会 导致 集成 进入 Xcode 之 后 必须 将 项 目的 bitcode 选 
项 关闭 掉 。 知 要 为 编译 的 库 打 开 bitcode 选 项 ， 那 么 在 编译 参数 中 增加 
下 面 这 行 参数 束 可 以 了 : 


-fembed-bitcode 


3.FFmpeg 命 令 行 工 具 的 编译 与 安 闭 


在 介绍 FFmpeg 的 命令 行 之 前 ， 应 先 安装 FFmpeg， 前 面 已 经 介绍 过 
了 FFmpeg 的 编译 ， 但 那 是 基于 Android 平 台 的 交叉 编译 ， 而 不 是 安装 在 
PC 上 的 工具 ， 虽 然 有 些 读者 可 能 会 说 我 们 做 的 是 移动 端 上 的 开发 ， 和 
PC 上 的 FFmpeg 有 什么 关系 呢 ? 但 是 不 可 否认 的 是 ， 开 发 者 用 于 开发 的 
机 右上 有 一 套 强 大 的 首 视 频 工 具 ， 对 开发 移动 端 上 的 首 视 频 项 目 是 非 
常 重要 的 。 相 信 有 了 上 文 的 介绍 ， 在 这 里 介绍 FFmpeg 的 配置 与 安装 应 


该 会 很 轻松 。 


下 面 给 出 一 个 编译 脚本 config_pc.sh: 


#!/bin/bash 

./configure \ 

--enable-gpl \ 
--disable-shared \ 
--disable-asm \ 
--disable-yasm \ 
--enable-filter=aresample \ 
--enable-bsf=aac_adtstoasc \ 
--enable-small \ 

--enable-dct \ 

--enable-dwt \ 

--enable-lsp \ 

--enable-mdct \ 

--enable-rdft \ 

--enable-fft \ 
--enable-static \ 
--enable-version3 \ 
--enable-nonfree \ 
--enable-encoder=libfdk_aac \ 
--enable-encoder=1libx264 \ 
--enable-decoder=mp3 \ 
--disable-decoder=h264_vda \ 
--disable-d3d11va \ 
--disable-dxva2 \ 
--disable-vaapi 和 
--disable-vda \ 
--disable-vdpau \ 
--disable-videotoolbox \ 
--disable-securetransport \ 
--enable-libx264 \ 
--enable-libfdk_aac \ 
--enable-libmp3lame \ 
--extra-cflags="-Ipc_fdk_aac/include -Ix264_ pc/include -Ipc_ lame/include" \ 
--extra-ldflags="-Lpc_fdk_aac/lib -Lx264_pc/lib -Lpc_lame/lib" \ 
--prefix='/Users/apple/Desktop/ffmpegtmp_1'" 


人 执行 权限 ， 那 么 请 执行 以 下 命令 为 该 文件 增加 执 
行 权限 : 


chmod a+x ./config_pc.sh 


然后 就 可 以 执行 该 Shell 脚 本 文件 ， 对 FFmpeg 进 行 配置 了 : 


./config_pc.sh 
该 脚本 执行 结束 之 后 ， 就 来 执行 以 下 命令 进行 编译 与 安装 : 


make && make install 


OR 进入 到 prefix 指 定 的 目录 下 查看 ， 具 体会 看 到 如 下 
| > O 〇 


bin: 编译 结束 的 命令 行 工具 所 在 的 目 永 ， 后 文 会 详细 介绍 该 目 永 
下 国生 


include: 编译 结束 的 头 文件 都 存放 在 该 目 孙 下 面 ， 如 果 要 以 编写 
代码 的 方式 调用 FFmpeg 的 API 去 完成 工作 〈 这 也 是 后 面 会 介绍 的 内 
容 ) ， 就 需要 把 include 中 的 目录 放 到 includes 的 配置 中 (Android 下 的 
makefile 文 件 ) 或 者 Header Search Path 中 (iOS 平 台 下 工程 文件 的 配置 


选项 | 


lib: 其 中 存放 的 是 编译 出 来 的 静态 库 文 件 ， 其 在 以 编写 代码 的 方 
式 调 用 FFmpeg 的 API 时 会 使 用 到 ， 在 编译 阶段 会 使 用 到 上 一 步 提 到 的 
include 目 未 ， 而 在 链接 阶段 则 会 使 用 到 这 个 lib 目 永 下 面 的 静态 库 了 。 


:share: 该 目录 中 存放 了 一 些 examples， 其 中 展示 了 如 何 使 用 代码 
的 方式 调用 FFmpeg 的 API， 其 实 可 以 切换 到 configure 脚 本 所 在 的 目录 ， 
然后 执行 make examples 命 令 及 make install， 再 到 doc 下 面 的 example 里 找 
0 进 制 文件 ， 这 样 就 可 以 进行 调试 或 者 写 出 自己 的 测试 程序 


有 的 读者 可 能 会 发 现 一 个 问题 ， 在 bin 目 孙 的 下 面 没有 ffplay， 这 又 
是 为 什么 呢 ? 因为 ffplay 实 际 上 是 客户 端 ffplay.c 的 C 程 序 编译 出 来 的 ， 
该 ffplay.c 需 要 依赖 avdevice 模 块 ， 而 avdevice 模 块 使 用 了 sdl 的 API， 如 果 
你 的 PC 上 没有 sdl (1.x 版 本 ， 最 常用 的 就 是 1.2.0) ， 那 么 fftplay 就 会 编 
译 不 出 来 了 。 所 以 要 想 编 译 出 命令 行 工 具 ffplay， 首 先 得 编译 基础 库 
sdl， 可 以 在 自己 的 PC 上 利用 安装 软件 包工 具 进行 安装 ， 以 Mac OS 系统 
为 例 ， 使 用 brew 进 行 安装 ， 如 果 没 有 brew 的 话 ， 则 首先 安装 brew， 可 
以 执行 下 面 命令 进行 Homebrew 的 安装 : 


ruby -e "$(curl -fsSL \ 
https://raw.githubusercontent.com/Homebrew/install/master/install)" 


地 得 一 段 时 间 ， brew 就 安装 好 了 ， 之 后 即 可 用 brew 安 装 sdl， 执 行 
下 述 命 令 : 


brew install sdl 


等 竺 下载 并 且 安 装 完毕 之 后 ， 重 新 执行 上 述 FFmpeg 的 配置 和 安装 
步骤 ， 符 make install 结 束 之 后 ， 再 去 bin 目 了 永 下 就 可 以 找到 命令 行 工 具 
ffplay 了 。 


当然 ， 还 可 以 使 用 另外 一 种 方式 为 开发 机 器 安装 FEmpeg， 即 通过 
安装 包 管理 工具 的 方式 进行 安装 。 在 Mac OS 系统 上 直接 在 命令 行 下 刍 
入 以 下 命令 : 


brew install ffmpeg 


可 以 看 到 brew 会 先 下 载 X264 作 为 视频 的 编码 库 ， 并 安装 成 功 ， 然 
后 就 可 以 直接 使 用 工具 FFEmpeg 了 ， 但 是 却 没 有 工具 ffplay， 如 采 想 安 闭 
ffplay， 那 么 执行 如 下 命令 : 


brew uninstall ffmpeg 
brew install ffmpeg --with-ffplay 


可 以 看 到 brew 会 和 完 下 载 s:dl， 然 后 再 安装 ffplay， 注 意 使 用 brew 安 装 
的 FFmpeg 已 经 是 3.0 以 上 的 版 本 ， 并 且 使 用 的 sdl 也 已 经 是 2.0 版 本 了 。 


至 此 ， 关 于 FFmpeg 的 编译 部 分 就 介绍 完毕 了 ， 现 在 回顾 一 下 本 节 
的 内 容 ， 本 节 主 要 介绍 了 如 何 控制 FFmpeg 各 个 模块 的 开关 ， 还 介绍 了 
如 何 将 第 三 方 编 解码 器 编译 到 FFmpeg 平 台中 ， 接 着 介绍 了 bit stream 
filter 类 型 的 过 滤器 ， 然 后 把 FFmpeg 交 义 编译 到 Android 平 台 和 iOS 平 
人 台 ， 最 后 在 PC 上 成 功 编译 出 FFmpeg。3.1.2 节 将 会 介绍 编译 出 来 的 
0 ， 以 及 在 工作 中 如 何 使 用 这 些 工具 来 提高 处 理 音 视 
力 贝 引 内 2A4 0 


3.1.2 FFmpeg 命 令 行 工 具 的 使 用 


前 面 讲 解 了 如 何 安装 FFEmpeg 相 关 的 命令 行 ， 其 中 涉及 ffmpeg、 
ffprobe、ffplay 以 及 ffserver 等 命令 行 工具 ， 本 将 重点 介绍 ftmpeg、 
ffprobe 与 ffplay 这 三 个 命令 行 工 具 ， 而 ffserver 则 是 作为 简单 的 流 媒体 服 
务 器 存在 的 ， 与 客户 问 开 发 天 系 不 大 ， 因 此 本 书 将 不 做 介绍 。 前 文 曾 
经 提 到 ffmpeg 是 进行 媒体 文件 转 码 的 命令 行 工 具 ，ffprobe 是 用 于 查看 
媒体 文件 头 信息 的 工具 ，ffplay 则 是 用 于 播放 媒体 文件 的 工具 。 


下 面 按 照 从 简单 开始 的 原则 ， 先 介绍 ffprobe 一 一 查看 媒体 文件 格 
Oe 
1.ffprobe 


首先 用 ffprobe 查 看 一 个 首 频 的 文件 : 


ffprobe ~/Desktop/32037.mp3 


键入 上 述 命 令 之 后 ， 先 看 如 下 这 行 信息 : 


Duration: 00:05:14.83, start: 0.000000, bitrate: 64kb/s 


这 行 信息 表明 ， 该 音频 文件 的 时 长 是 5 分 14 秒 零 830 至 秒 ， 开 始 播 
放 时 间 是 0， 整 个 媒体 文件 的 比特 率 是 64Kbit/s， 然 后 再 看 男 外 一 行 : 


Stream#0:0 Audio: mp3, 24000Hz, stereo, s1i6p, 64kb/s 


这 行 信息 表明 ， 第 一 个 流 是 音频 流 ， 编 码 格式 是 MP3 格 式 ， 采 样 
率 是 24kHz， 声 道 是 立体 声 ， 采 样 表示 格式 是 SInt16 (short) 的 planner 
( 平 铺 格 式 ) ， 这 路 流 的 比特 率 是 64Kbits。 


然后 再 使 用 ffprobe 查 看 一 个 视频 的 文件 : 


ffprobe ~/Desktop/32037 .mp4 


键入 上 述 命 令 之 后 ， 可 以 看 到 第 一 部 分 的 信息 是 Metadata 信 息 : 


Metadata 
major_brand: isom 
minor_version: 512 
compatible_brands: isomiso2avc1imp41 
encoder: Lavf55.12.100 


这 行 信 息 表 明了 该 文件 的 Metadata 信 息 ， 比 如 encoder 是 
Lavf55.12.100， 其 中 Lavf 代 表 的 是 FFmpeg 输 出 的 文件 ， 后 面 的 编号 代 
表 了 FFmpeg 的 版 本 代号 ， 接 下 来 的 一 行 信息 如 下 : 


Duration: 00:04:34.56 start: 0.023220, bitrate: 577kb/s 


上 面 一 行 的 内 容 表示 Duration 是 4 分 34 秒 560 上 毫秒 ， 开 始 播放 的 时 
eo 整个 文件 的 比特 率 是 577Kbit/s， 紧 接着 再 来 
= 


Stream#0:0 (un) : Video: h264 (avc1/0x31637661) , yuv420p, 480*480, 508kb/s, 24fps 


这 行 信息 表示 第 一 个 stream 是 视频 流 ， 编 码 方式 是 H264 的 格式 
(封装 格式 是 AVC1) ， 每 一 帧 的 数据 表示 是 YUV420P 的 格式 ， 分 辩 
率 是 480x480， 这 路 流 的 比特 率 是 508Kbit/s， 帧 率 是 每 秒 钟 24 帧 (fps 
是 24) ， 紧 接着 再 来 看 下 一 行 : 


Stream#0:1 (und) : Audio: aac (LC) (mp4a/0x6134706D) ， 44100Hz, stereo, fltp, 63kb/s 


这 人 和 什 信 县 表示 第 二 个 stream 是 音频 流 ， 编码 方式 是 AAC (封装 格 
式 是 MP4A) ， 并 且 采 用 的 Profile 是 LC 规 格 ， 采 样 率 是 44100Hz， 声 道 
数 是 立体 声 ， 数 据 表 示 格 式 是 浮 点 型 ， 这 路 音频 流 的 比特 率 是 
63Kbit/s ° 


以 上 就 古 使 用 ffprobe 来 提取 首 频 文件 和 视频 文件 头 信 息 的 方式 ， 
以 及 提取 出 来 信息 的 含义 。 当 然 ，ffprobe 还 有 比较 高 级 的 用 法 ， 下 面 


证 必 他 个 
就 来 介绍 几 个 : 
ffprobe -show format 32037.mp4 


上 述 命 令 可 以 输出 格式 信息 format_name、 有 时间 长 度 duration、 文 
件 大 小 size、 比 特 率 bit_ rate、 流 的 数目 nb_streams 等 。 


ffprobe -print_format json -Show_streams 32037 ,mp4 


上 壕 命令 可 以 以 JSON 格 式 的 形式 输出 具体 每 一 个 流 最 详细 的 信 
息 ， 视 频 中 会 有 视频 的 宽 高 信息 、 是 否 有 b 帧 、 视 频 帧 的 总 数目 、 视 频 


的 编码 格式 、 显 示 比 例 、 比 特 率 等 信息 ， 音 频 中 会 有 音频 的 编码 格 
式 、 表 示 格 式 、 声 道 数 、 时 间 长 度 、 比 符 率 、 帧 的 总 数目 等 信息 。 


显示 幅 信 息 的 命令 如 下 : 


ffprobe -show frames sample.mp4 


ffprobe -show packets sample.mp4 


观 影 小 技巧 


日 常生 活 中 经 常会 接触 到 多 媒体 文件 ， 比 如 ， 在 电脑 上 利用 
ffprobe 工 具 打 开 一 些 国 粤 双语 的 文件 ， 一 般 会 看 到 如 下 3 行 Stream 。 


几 频 Stream: h264 yuv420P 


AN 


音频 Stream: aac 48000Hz stereo fltp (default) title: 粤语 
音频 Stream: aac 48000Hz stereo fltp title: 国语 


这 就 是 说 明 ， 该 媒体 文件 中 有 三 路 流 ， 一 路 是 视频 流 ， 男 外 两 路 
首 频 流 ， 默 认 播 放 的 是 粤语 的 声 首 流 ， 在 大 多 数 的 播放 絮 里 面部 可 


是 首 频 


以 进行 音频 流 的 切换 ， 可 以 切换 到 国语 的 声音 流 进行 观看 。 


首 下 
以 上 介绍 的 基本 上 束 古 日 常 工 作 中 经 常会 使 用 到 的 ffprobe 命 令 
了 ， 其 实 大 家 只 需要 掌握 最 重要 的 查看 指令 就 可 以 了 ， 下 面 继续 来 看 
下 一 个 命令 行 工具 ffplay。 


2.ffplay 


前 文 已 经 提 到 过 ，ffplay 是 以 FFmpeg 框 架 为 基础 ， 外 加 泻 染 音 视 
频 的 库 libSDL 来 构建 的 媒体 文件 播放 器 。 它 所 依赖 的 libSDL 是 1.2 版 本 
的 ， 所 以 在 安装 ffplay 之 前 也 要 安装 对 应 版 本 的 libSDL 作 为 其 依赖 的 组 
件 。 之 后 使 用 ffplay 就 非常 简单 了 ， 比 如 我 们 要 播放 一 个 音频 文件 : 


ffplay 32037 ,mp3 


这 时 候 会 弹出 一 个 窗口 ， 一 边 播放 MP3 文 件 ， 一 边 将 播放 声音 的 
语 谱 图 画 到 该 窗口 上 。 针 对 该 窗口 的 操作 如 下 ， 点 击 窗口 的 任意 一 个 
位 置 ，ffplay 会 按照 点 击 的 位 置 计算 出 时 间 的 进度 ， 然 后 跳 (seek) 到 
这 个 时 间 点 上 继续 播放 ， 按 下 键盘 上 的 右键 会 默认 快 进 10s， 左 键 默认 
后 退 10s， 上 键 默 认 快 进 1min， 下 键 默 认 后 退 1min;， 按 ESC 键 就 是 退出 
0 如 果 按 w 键 则 将 绘制 首 频 的 波形 图 等 。 播 放 一 个 视频 的 命 
父 如 不 : 


ffplay 32037 ,mp4 


这 时 候 会 直接 在 新 弹出 的 窗口 上 播放 该 视频 ， 如 果 想 要 同时 播放 
多 个 文件 ， 那 么 只 需要 在 多 个 命令 行 下 同时 执行 ffplay 束 可 以 了 ， 在 对 
比 多 个 视频 质量 的 时 候 这 是 一 个 操作 技巧 ， 此 外 ， 如 采 按 s 键 则 可 以 进 
入 frame-step 模 式 ， 即 按 s 键 一 次 束 会 播放 下 一 由 图 像 ， 这 在 观察 某 些 
视频 内 部 的 帧 内 容 时 也 是 第 用 的 技巧 。 


业界 内 开源 的 ijkPlayer 其 实 就 是 基于 ffplay 进 行 改造 的 播放 妖 ， 当 
然 其 做 了 硬件 解码 以 及 很 多 兼容 性 的 工作 。jjkPlayer 是 一 款 非常 优秀 
的 播放 絮 ， 作 为 开发 者 的 我 们 需要 很 多 优秀 的 开源 项 目 。 所 以 在 这 里 
0 目 己 的 部 分 代码 ， 以 提高 所 在 领域 的 

水 平 。 


更 多 的 ffplay 命 令 介 绍 如 下 : 


ffplay 32037 .mp4 -loop 10 


上 述 命 令 代表 播放 视频 结束 之 后 会 从 头 再 次 播放 ， 共 循环 播放 10 

次 。 还 记得 前 文中 所 到 过 的 两 路 流 吗 ? ffplay 也 做 了 这 方面 的 适 配 ， 也 

| 以 指定 使 用 哪 一 路 音频 流 或 者 视频 流 ， 命 令 
中: 


ffplay 大 话 西游 .mkv -ast 1 


上 壕 命令 表示 播放 视频 中 的 第 一 路 音频 流 ， 如 果 参 数 ast 后 面 跟 的 
是 2-， 那 和 就 播放 第 二 路 音频 流 ， 如 果 没有 第 二 路 音频 流 的 话 ， 就 会 静 
音 ， 同 样 也 可 以 设置 参数 vst， 比 如 ; 


ffplay 大 话 西 游 .mkv -vst 1 


上 述 命令 表示 播放 视频 中 的 第 一 路 视频 流 ， 如 采 参 数 vst 后 面 跟 的 
是 2， 那 么 就 播放 第 二 路 视频 流 ， 但 是 如 有 果 疫 有 第 二 路 视频 流 ， 就 会 是 
黑屏 即 什么 都 不 显示 。 


接 下 来 介绍 开发 工作 中 币 用 的 儿 个 命令 ， 这 些 命令 在 工作 中 debug 
的 时 候 非 党 有用。 首先 用 ffplay 播 放 襟 数据 ， 无 论 是 音频 的 pcm 文 件 还 
是 视频 帧 原始 格式 表示 的 数据 (YUV420P 或 者 rgba) 。 下 面 先 来 看 看 
音频 pcm 文 件 的 播放 命令 : 


ffplay song.pcm -f SsS16]e -channels 2 -ar 44100 


仅 键 入 上 述 这 行 命 令 其实 就 可 以 正常 播放 song.pcm 了 ， 当 然 ， 前 
提 是 格式 (-f) 、 声 道 数 〈(-channels) 、 采 样 率 (-ar) 必须 设置 正 
确 ， 如 果 其 中 任何 一 项 参数 设置 不 正确 ， 都 不 会 得 到 正常 的 播放 结 
果 。 第 1 章 在 讲 音 频 的 基础 概念 时 已 经 提 到 过 ，WAV 格 式 的 文件 称 为 
无 压缩 的 格式 ， 其 实职 是 在 PCM 的 头 部 添加 44 个 字 节 ， 用 于 标识 这 个 
PCM 的 采样 表示 格式 、 声 道 数 、 采 样 率 等 信息 ， 对 于 WAV 格 式 音 频 文 


件 ，ffplay 肯 定 可 以 直接 播放 ， 但 是 看 让 ffplay 播 放 PCM 裸 数据 的 话 ， 
只 要 为 其 提供 上 述 三 个 主要 的 信息 ， 那 么 它 殴 可 以 正确 地 播放 了 。 


然后 再 来 看 一 帧 视频 帧 的 播放 ， 首 先是 YUV420P 格 式 的 视频 帧 : 


ffplay -f rawvideo -pixel format yuv420p -s 480*480 texture.yuv 


其 实 对 于 一 帧 视频 帧 ， 或 者 更 直接 来 说 一 张 PNG 或 者 JPEG 的 
片 ， 直 接 用 ffplay 是 可 以 显示 或 播放 的 ， 当 然 PNG 或 者 JPEG 都 会 在 其 
头 部 信息 里 面 指明 这 张 图 片 的 宽 高 以 及 格式 表示 。 大 想 让 ffplay 显 示 一 
张 YUV 的 原始 数据 表示 的 图 片 ， 那 么 需要 告诉 ffplay 一 些 重要 的 信 
息 ， 其 中 包括 格式 (-f rawvideo 代 表 原 始 格 式 ) 、 表 示 格 式 (- 
pixel_format yuv420p) 、 宽 高 (-s 480*480) 。 对 于 RGB 表示 的 图 像 
其 实 是 一 样 的 ， 命 令 如 下 : 


ffplay -f rawvideo -pixel format rgb24 -s 480*480 texture.rgb 


Be 0 当然 还 需要 指明 前 面 提 到 的 三 项 


AE 


另外 ， 对 于 视频 播放 器 ， 不 得 不 提 的 一 个 问题 束 是 音 画 同步 ， 在 
ffplay 中 音 画 同步 的 实现 方式 其 实 有 三 种 ， 分 别 是 : 以 音频 为 主 时 间 轴 
作为 同步 源 ， 以 视频 为 主 时 间 轴 作为 同步 源 ， 以 外 部 时 钟 为 主 时 间 轴 
作为 同步 源 。 下 面 瑟 以 音频 为 主 时 间 轴 来 作为 同步 源 来 作为 案例 进行 
讲解 ， 这 也 是 后 面 章 市 中 完成 视频 播放 此 项 目 时 要 使 用 到 的 对 齐 宽 
略 ， 并 且 在 ffplay 中 默认 的 对 齐 方 式 也 是 以 首 频 为 基准 进行 对 齐 的 ， 那 
么 以 音频 作为 对 齐 基 准 是 如 何 实现 的 呢 ? 


目 先 要 声明 的 是 ， 播 放 锋 接收 到 的 视频 帧 或 者 首 频 帧 ， 内 部 都 会 
有 时 间 惟 (PTS 时 钟 ， 来 标识 它 实际 应 该 在 什么 时 刻 进行 展示 。 实 际 
的 对 齐 策略 如 下 : 比较 视频 当前 的 播放 时 间 和 音频 当前 的 播放 时 间 
如 果 视 频 播放 过 快 ， 则 通过 加 大 延迟 或 者 重复 播放 来 降低 视频 播放 速 
度 ; 如 采 视 频 播 放 慢 了 ， 则 通过 减 小 延迟 或 者 丢 帆 来 追赶 音频 播放 的 
时 间 点 。 关 键 殴 在 于 音 视 频 时 间 的 比较 以 及 延迟 的 计算 ， 当 然 在 比较 
的 过 程 中 会 设置 一 个 阐 值 (Threshold) ， 者 超过 预 设 的 阔 值 就 应 该 做 
调整 〈 丢 帧 泻 染 或 者 重复 泻 染 ) ， 这 束 是 整个 对 齐 策略 。 


对 于 ffplay 可 以 明确 指明 使 用 的 到 展 是 哪 一 种 具体 的 对 齐 方式 ， 比 
站: 


ffplay 32037 ,mp4 -Sync audio 


上 述 命 令 亚 式 地 指定 了 ffplay 使 用 音频 为 基准 进行 音 视 频 同步 ， 用 
WE 当然 这 也 是 ffplay 的 默认 设置 (就 是 写 与 不 写 
者 一样) 。 


ffplay 32037.mp4 -sync video 


”上 述 命令 显 式 地 指定 了 使 用 以 视频 为 基准 进行 音 视 频 同 步 的 方式 
播放 视频 文件 。 


ffplay 32037.mp4 -sync ext 
上 述 命 令 显 式 地 指定 了 使 用 外 部 时 钟 作为 基准 进行 音 视 频 同 步 的 
方式 ， 用 来 播放 视频 文件 。 
大 家 可 以 分 别 使 用 这 三 种 方式 进行 播放 ， 演 试 着 去 听 一 听 ， 做 一 


些 快 进 操作 或 者 直接 跳 (seek) 到 某 个 位 置 的 操作 ， 观 察 一 下 不 同 的 
对 齐 策略 对 最 终 的 播放 具体 会 造成 什么 样 的 影响 。 


3.ftmpeg 


fftmpeg 其 实 是 这 三 个 命令 行 工具 里 最 强大 的 一 个 工具 ， 如 果 说 
ffprobe 是 用 于 探测 媒体 文件 的 格式 以 及 详细 信息 ，ffplay 是 一 个 播放 媒 
体 文 件 的 工具 ， 那 么 ftmpeg 束 是 强大 的 媒体 文件 转换 工具 。 它 可 以 转 
换 任何 格式 的 媒体 文件 ， 并 且 还 可 以 用 目 己 的 AudioFilter 以 及 
VideoFilter 进 行 处 理 和 编辑 ， 总 之 一 句 话 ， 有 了 它 ， 进 行 离线 处 理 视 
频 时 可 以 做 任何 你 想 做 的 事情 了 。 下 面 先 介绍 总 体 的 参数 ， 然 后 再 列 
出 经 典 场景 下 的 使 用 案例 。 


(1) 通用 参数 
--f fmt: 指定 格式 (音频 或 者 视频 格式 ) 。 


-i filename: 指定 输入 文件 和 名， 在 Linux 下 当然 也 能 指定 : 0.0 〈 屏 
幕 录制 ) 或 摄像 头 。 


.-y: 禾 盖 已 有 文件 。 
.-t duration: 指定 时 长 。 
-fs limit_size: 设置 文件 大 小 的 上 限 。 


-ss time_off: 从 指定 的 时 间 (单位 为 秒 ) 开始 ， 也 支持 [-]hh: 
mm: ss[.xxx] 的 格式 。 


-re: 代表 按照 帧 率 发 送 ， 尤 其 在 作为 推 流 工具 的 时 候 一 定 要 加 入 
六 参数 ， 否 岂 ffmpeg 会 按照 最 高 速率 同 流 媒 体 服务 器 不 停 地 发 送 数 


-map: 指定 输出 文件 的 流 映 射 天 系 。 例 如 : “-map 1: 0-map 1: 
1” 要 求 将 第 二 个 输入 文件 的 第 一 个 流 和 第 二 个 流 写 入 输出 文件 。 如 有 果 
没有 -map 选 项 ， 则 fftmpeg 采 用 默认 的 映射 关系 。 
(2) 视频 参数 


-b: 指定 比特 率 (bit/s) ，ffmpeg 是 自动 使 用 VBR 的 ， 阁 指定 了 
该 参数 则 使 用 平均 比特 率 。 


-bitexact: 使 用 标准 比特 率 。 
-Vb: 指定 视频 比特 率 (bits/s) 
-rrate: 帧 速率 (fps) 

-s size: 指定 分 辨 率 (320x240) 


-aspect aspect: 设置 视频 长 宽 比 〈4: 3，16: 9 或 1.3333， 
rg 


-croptop size: 设置 顶部 切除 尺寸 (in pixels) 


-cropbottom size: 设置 底部 切除 尺寸 (in pixels) 


-cropleft size: 设置 左 切 除 尺 寸 (in pixels) 。 
-cropright size: 设置 右 切 除 尺 寸 (in pixels) 


-padtop size: 设置 顶部 补 齐 尺寸 (in pixels) 。 


[© 


-padbottom size: 底 补 齐 (in pixels) 。 
-padleft size: 左 补 齐 (in pixels) o 


-padright size: 右 补 齐 (in pixels) 。 


[© 


-padcolor color: 补 齐 带 颜 色 (000000-FFFFFF) 
-vn: 取消 视频 的 输出 。 


.-Vcodec codec: 强制 使 用 codec 编 解码 方式 ('copy' 代 表 不 进行 重 
新 编码 ) 。 


(3) 音频 参数 
.-ab: 设置 比特 率 (单位 为 biys， 老 版 的 单位 可 能 是 Kbitys) ， 对 


于 MP3 格 式 ， 若 要 听 到 较 高 品质 的 声音 则 建议 设置 为 160Kbits ( 单 声 
道 则 设置 为 80Kbit/s) 以 上 。 


-aq quality: 设置 音频 质量 (指定 编码 ) 。 

-ar rate: 设置 音频 采样 率 (单位 为 Hz) 。 

-ac channels: 设置 声 道 数 ，1 就 是 单 声 道 ，2 束 是 立体 声 。 
-an: 取消 音频 轨 。 


二 -acodec codec: 指定 音频 编码 (copy' 代 表 不 做 音频 转 码 ， 直 接 复 
和 


-vol volume: 设置 录制 音量 大 小 (默认 为 256) < 百分比 > 。 


以 上 就 是 日 常 开发 中 经 常用 到 的 音 视频 参数 以 及 通用 参数 ， 若 只 
介绍 这 些 参数 ， 读 者 肯定 会 觉得 比较 迷 落 ， 下 面 就 结合 日 常 开发 中 遇 
到 的 场景 逐个 给 出 具体 的 实例 来 实践 一 下 。 


1) 列 出 fftmpeg 文 持 的 所 有 格式 : 


ffmpeg -formats 


2) 剪 切 一 段 媒体 文件 ， 可 以 是 音频 或 者 视频 文件 : 


ffmpeg -i input.mp4 -ss 00:00:50.0 -codec copy -t 20 output .mp4 


表示 将 文件 input.mp4 从 第 50s 开 始 剪 切 20s 的 时 间 ， 输 出 到 文件 
中 ， 其 中 -ss 指定 偏 移 时 间 (time Offset) ，-t 指 定 的 时 长 
duration) “。 


3) 如 果 在 手机 中 录制 了 一 个 时 间 比 较 长 的 视频 无 法 分 享 到 微 信 
中 ， 那 么 可 以 使 用 ftmpeg 将 该 视频 文件 切割 为 多 个 文件 : 


ffmpeg -i input.mp4 -t 00:00:50 -c copy small-1.mp4 -ss 00:00:50 -codec copy 
small-2.mp4 


4) 提取 一 个 视频 文件 中 的 音频 文件 : 


ffmpeg -i input.mp4 -vn -acodec copy output.m4a 


5) 使 一 个 视频 中 的 音频 静音 ， 即 只 保留 视频 : 


ffmpeg -i input.mp4 -an -vcodec copy output .mp4 


6) 从 MP4 文 件 中 抽取 视频 流 导出 为 裸 H264 数 据 : 


ffmpeg -i output.mp4 -an -vcodec copy -bsf:v h264_mp4toannexb output.h264 


注意 ， 上 壕 指 令 里 不 使 用 首 频 数据 (-an) ， 视 频数 据 使 用 
mp4toannexb 这 个 bitstream filter 来 转换 为 原始 的 H264 数 据 ， 在 后 续 的 
API 章 节 中 也 会 频 老 使 用 到 该 bitstream filter， 在 前 面 的 章节 中 也 曾 提 到 
过 同一 编码 会 有 不 同 的 封装 格式 。 


7) 使 用 AAC 音 频数 据 和 H264 的 视频 生成 MP4 文 件 : 


ffmpeg -i test,aac -i test.h264 -acodec copy -bsf:a aac_adtstoasc -vcodec copy -f 
mp4 output.mp4 


上 述 代 码 中 使 用 了 一 个 名 为 aac_adtstoasc 的 bitstream filter，AAC 格 
式 也 有 两 种 封装 格式 ， 前 面 的 章节 中 也 曾 提 到 过 ， 而 且 在 后 续 的 章节 
中 也 会 继续 使 用 API 调 用 该 bitstream filter 。 


8) 对 音频 文件 的 编码 格式 做 转换 : 


ffmpeg -i input.wav -acodec libfdk_aac output .aac 


9) 从 WAV 音 频 文 件 中 导出 PCM 裸 数据 : 


ffmpeg -i input.wav -acodec pcm_si6le -f si6le output.pcm 


这 样 就 可 以 导出 用 16 个 bit 来 表示 一 个 sample 的 PCM 数 据 了 ， 并 且 
每 个 sample 的 字 蔬 排列 顺序 都 是 小 尾 端 表示 的 格式 ， 声 道 数 和 采样 率 
使 用 的 都 是 原始 WAV 文 件 的 声 道 数 和 采样 率 的 PCM 数 据 。 


重 靳 编码 视频 文件 ， 复 制 音频 流 ， 同 时 封 狠 到 MP4 格 式 的 文 


ffmpeg -i input.flv -vcodec libx264 -acodec copy output .mp4 


11) 将 一 个 MP4 格 式 的 视频 转换 成 为 gif 格式 的 动 图 : 


ffmpeg -i input.mp4 -vf Scale=100:-1 -t 5 -r 10 image.gif 


上 述 代 码 按照 分 辨 比例 不 动 宽度 改 为 100 (使 用 VideoFilter 的 
scaleFilter) ， 帆 率 改 为 10 (-r) ， 只 处 理 前 5 秒 钟 (-t) 的 视频 ， 生 成 
gif ° 


12) 将 一 个 视频 的 画面 部 分 生成 图 片 ， 比 如 要 分 析 一 个 视频 里 面 
的 每 一 帧 都 是 什么 内 容 的 时 候 ， 可 能 器 需要 用 到 这 个 命令 了 : 


ffmpeg -i output.mp4 -r 0.25 frames_ %04d.png 


上 壕 命 令 每 4 秒 钟 截取 一 帆 视 频 画 面 生 成 一 张 图 片 ， 生 成 的 图 片 从 
frames_0001.png 开 始 一 直 递 增 下 去 。 


13) 使 用 一 组 图 片 可 以 组 成 一 个 gif， 如 果 你 连 拍 了 一 组 照片 ， 就 
可 以 用 下 面 这 行 命令 生成 一 个 gif: 


ffmpeg -i frames %04d.png -r 5 output .gif 


14) 使 用 音量 效果 器 ， 可 以 改变 一 个 音频 媒体 文件 中 的 音量 : 


ffmpeg -i Input.wav -af ‘volume=0.5’ output.wav 


上 述 命 令 是 将 input,wav 中 的 声音 减 小 一 半 ， 和 输出 到 output,wav 文 件 
人 。 0 ， 或 者 放 到 一 些 音频 编辑 软件 中 直接 观看 波形 
下 度 的 效果 。 


15) 淡 入 效果 器 的 使 用 : 


ffmpeg -i input.wav -filter_complex afade=t=in:ss=0:d=5 output.wav 


上 壕 命 令 可 以 将 input.wav 文 件 中 的 前 5s 做 一 个 淡 入 效果 ， 输 出 到 
output.wav 中 ， 可 以 将 处 理 之 前 和 处 理 之 后 的 文件 拖 到 Audacity 音 频 编 
辑 软 件 中 查看 波形 图 。 


16) 淡出 效果 器 的 使 用 : 


ffmpeg -i input.wav -filter_complex afade=t=out:st=200:d=5 output.wav 


上 述 命 令 可 以 将 input.wav 文 件 从 200s 开 始 ， 做 5s 的 淡出 效果 ， 并 
放 到 output.wav 文 件 中 。 


17) 将 两 路 声音 进行 合并 ， 比 如 要 给 一 段 声音 加 上 背景 音乐 : 


ffmpeg -i vocal.wav -i accompany.wav -filter_complex 
amix=inputs=2:duration=shortest output.wav 


上 述 命令 是 将 vocal.wav 和 accompany.wav 两 个 文件 进行 mix， 按 照 
J 三 的 音频 文件 的 时 间 长 度 作 为 最 终 输 出 的 output.wav 的 时 间 
1 


18) 对 声音 进行 变速 但 不 变调 效果 器 的 使 用 : 


ffmpeg -i vocal.wav -filter_complex atempo=0.5 output.wav 


上 述 命 令 是 将 vocal.wav 按 照 0.5 倍 的 速度 进行 处 理 生成 
output,wav， 时 间 长 度 将 会 变 为 输入 的 2 倍 。 但 是 音 高 是 不 变 的 ， 这 残 
是 大 家 常 说 的 变速 不 变调 。 


19) 为 视频 增加 水 印 效 果 : 


ffmpeg -i input.mp4 -i changba_icon.png -filter_complex 
'[O:v][1i:vljoverlay=main _w-overlay w-10:10:1[out]' -map '[out]' output.mp4 


上 上 壕 命令 包含 了 几 个 内 置 参数 ，main_w 代 表 主 视频 宽度 ， 
overlay_w 代 表 水 印 宽度 ，main_h 代 表 主 视频 高 度 ，overlay_h 代 表 水 印 


高 度 。 
20) 视频 提 亮 效果 器 的 使 用 : 


ffmpeg -i Input.flv -c:v libx264 -b:v 800k -c:a libfdk_aac -vf 
eq=brightness=0.25 
-f mp4 output.mp4 


提 亮 参数 是 brightness， 取 值 范围 是 从 -1.0 到 1.0， 默 认 值 是 0。 


21) 为 视频 增加 对 比 度 效果 : 


ffmpeg -i input.flv -c:v libx264 -b:v 800k -c:a libfdk_aac -vf eq=contrast=1.5 - 
f 


mp4 output.mp4 
对 比 度 参数 是 contrast， 取 值 范围 是 从 -2.0 到 2.0， 默 认 值 是 1.0。 
22) 视频 旋转 效果 器 的 使 用 : 


ffmpeg -i input.mp4 -vf "transpose=1" -b:v 600k output ,mp4 


23) 视频 裁剪 效果 器 的 使 用 : 


ffmpeg -i input.mp4 -an -vf "crop=240:480:120:0" -vcodec libx264 -b:v 600Kk 
output ,mp4 


24) 将 一 张 RGBA 格 式 表 示 的 数据 转换 为 JPEG 格 式 的 图 片 : 


ffmpeg -f rawvideo -pix_fmt rgba -s 480*480 -i texture.rgb -f image2 -vcodec 
mjpeg 
output ,jpg 


25) 将 一 个 YUV 格 式 表 示 的 数据 转换 为 JPEG 格 式 的 图 片 : 


ffmpeg -f rawvideo -pix_fmt yuv420p -s 480*480 -i texture.yuv -f image2 -vcodec 
mjpeg 
output ,jpg 


26) 将 一 段 视频 推送 到 流 媒体 服务 器 上 


ffmpeg -re -i input.mp4 -acodec copy -vcodec copy -f flv rtmp://xxx 


上 述 代 码 中 ，rtmp: //xxx 代 表 流 媒体 服务 絮 的 地 址 ， 加 上 -re 参数 
代表 将 实际 媒体 文件 的 播放 速度 作为 推 流速 度 进 行 推送 。 


27) 将 流 媒 体 服务 右上 的 流 dump 到 本 地 : 


ffmpeg -i http://xxx/xxx.flv -acodec copy -vcodec copy -f flv output.flv 


上 述 代码 中 ，http:/xxx/xxx.flv 代 表 一 个 可 以 访问 的 视频 网 络 地 
址 ， 可 按照 复制 视频 流 格 式 和 音频 流 格 式 的 方式 ， 将 文件 下 载 到 本 地 
的 output.flv 媒 体 文件 中 。 


28) 将 两 个 音频 文件 以 两 路 流 的 形式 封闭 到 一 个 文件 中 ， 比 如 在 
K 歌 的 应 用 场景 中 ， 原 伴唱 实时 切换 的 场景 下 ， 可 以 使 用 一 个 文件 包 
含 两 路 流 ， 一 路 是 伴奏 流 ， 男 外 一 路 是 原 唱 流 : 


ffmpeg -i 131.mp3 -i 134.mp3 -map 0:a -c:a':0 libfdk aac -b:a:0 96k -map 1:a - 
cia: 


libfdk_aac -b:a:1 64k -vn -f mp4 output.m4a 


其 实 ，FFmpeg 的 命令 工具 随意 组 合 的 话 会 有 很 多 种 ， 这 里 只 列举 
了 一 部 分 ， 如 果 大 家 弄 清楚 了 FFmpeg 能 做 什么 ， 那 么 具体 的 使 用 束 一 
目 了 然 了 ， 只 要 是 FFmpeg 框 架 能 够 实现 的 功能 ， 那 么 FFmpeg 命 令 行 
工具 整 能 将 其 提供 出 来 了 。 下 面 将 会 介绍 如 何 从 API 层 面 调 用 FFmpeg 
来 完成 日 前 的 开发 工作 。 


3.2 FFmpeg API 的 介绍 与 使 用 
首先 ， 需 要 统一 下 术语 ， 具 体 如 下 。 
.容器 文件 (Conainer/File) ， 即 特定 格式 的 多 媒体 文件 ， 比 如 


MP4、flv、mov 等 。 


-媒体 流 (Stream) : 表示 时 间 轴 上 的 一 段 连续 数据 ， 如 一 段 声 音 
数据 、 一 段 视频 数据 或 一 段 字 幕 数据 ， 可 以 十 压 缩 的 ， 也 可 以 是 非 压 
缩 的 ， 压 缩 的 数据 需要 关联 特定 的 编 解码 右 。 


.数据 帧 数据 包 〈Frame/Packet) : 通常 ， 一 个 媒体 流 是 由 大 量 
的 数据 帧 组 成 的 ， 对 于 压缩 数据 ， 帧 对 应 着 编 解 码 器 的 最 小 处 理 单 
元 ， 分 属于 不 同 媒体 流 的 数据 帧 交错 存储 于 容 右 之 中 。 


` 编 解码 右 ， 编 解码 右 是 以 帧 为 单位 实现 压缩 数据 和 原始 数据 之 间 
的 相互 转换 的 。 


前 面 已 经 介绍 过 FFmpeg 的 各 个 库 以 及 每 个 库 所 承担 的 职 贡 ， 本 市 
将 要 讨论 的 是 ， 以 写 代 码 的 方式 调用 FFmpeg 的 API 完 成 一 些 媒体 文件 
首先 会 介绍 最 重要 的 结构 体 ， 然 后 再 以 实例 的 方式 完成 两 个 
头 O 


前 面 所 介绍 的 术语 ， 其 实 就 是 FFmpeg 中 抽象 出 来 的 概念 ， 我 们 不 
得 不 承认 ，FFmpeg 的 功能 非常 强大 ， 同 时 我 们 也 得 承认 FFmpeg 的 代 
码 设 计 也 是 非常 优秀 的 。 其 中 AVFormatContext 束 是 对 容器 或 者 说 媒体 
文件 层次 的 一 个 抽象 ， 该 文件 中 (或 者 说 在 这 个 容器 里 面 ) 包含 了 多 
路 流 〈 音 频 流 、 视 频 流 、 字 幕 流 等 ) ， 对 流 的 抽象 就 是 AVStream; 在 
每 一 路 流 中 都 会 描述 这 路 流 的 编码 格式 ， 对 编 解 码 格式 以 及 编 解 码 居 
的 抽象 束 是 AVCodecContext 与 AVCodec; 对 于 编码 器 或 者 解码 器 的 输 
入 输出 部 分 ， 也 就 是 压缩 数据 以 及 原始 数据 的 抽象 束 是 AVPacket 与 
AVFrame ° 


前 面 是 从 多 媒体 概念 的 角度 上 目 外 回 内 地 对 FFmpeg 进 行 了 剂 析 ， 
这 也 正好 是 FFmpeg 抽 象 的 层次 ， 非 常 易于 理解 。 当 然 除了 编 解 码 之 


外 ， 对 于 首 视 频 的 处 理 肯定 是 针对 于 原始 数据 的 处 理 ， 也 就 是 针对 于 
AVFrame 的 处 理 ， 使 用 的 就 是 AVFilter， 这 一 点 也 非常 好 理解 。 


至 此 ，FFmpeg 中 最 重要 的 儿 个 模块 都 已 经 介绍 完毕 了 ， 下 面 来 具 
体 看 一 个 解码 的 实例 ， 该 实例 实现 的 功能 非常 单一 ， 束 古 把 一 个 视频 
文件 解码 成 为 单独 的 音频 PCM 文 件 和 视频 YUV 文 件 ， 最 后 将 会 使 用 前 
0 以 查看 是 否 可 以 得 到 正 


首先， 要 使 用 FFmpeg 丈 必须 要 引用 它 的 头 文件 ， 以 及 在 链接 阶段 
使 用 它 的 静态 库 文 件 ， 关 于 头 文 件 和 静态 库 文 件 的 生成 ， 前 面 已 经 介 
绍 过 了 ， 这 里 直接 将 文件 \include 文 件 夹 与 libffmpeg.a 静 态 库 文 件 ) 
拿 过 来 使 用 。 
1. 引 用 头 文 件 


如 果 是 在 iOS 下 ， 那 么 可 直接 以 下 面 这 种 方式 引用 头 文 件 : 


#include "libavformat/avformat.h" 
#include "libswscale/swscale.h" 
#include "libswresample/swresample.h" 
#include "libavutil/pixdesc.h" 


0 那么 可 直接 以 下 面 这 种 方式 引用 


extern "CcC" { 
#include "3rdparty/ffmpeg/include/libavformat/avformat.h" 
#include "3rdparty/ffmpeg/include/libswscale/swscale.h" 
#include "3rdparty/ffmpeg/include/libswresample/swresample.h" 
#include "3rdparty/ffmpeg/include/libavutil/pixdesc.h" 

} 


extern“C” 有 的 解释 


作为 一 种 面条 对象 的 语言 ，C++ 文 持 函 数 的 重 载 ， 而 面 癌 过 程 的 C 
语言 吓 不 文 持 函数 重 载 的 。 同 一 个 函数 在 C++ 中 编译 后 与 其 在 C 中 编译 
后 ， 在 符号 表 中 的 签名 是 不 同 的 ， 假 如 对 于 同一 个 函数 : 


void decode(float position, float duration) 


在 C 语 言 中 编译 出 来 的 签名 是 _decoder， 而 在 C++ 语 言 中 ， 一 般 编 
译 需 的 生成 则 类 似 于 _decode_float float。 昌 然 在 编译 阶段 是 没有 问题 
的 ， 但 是 在 链接 阶段 ， 如 果 不 加 extern“C” 关 键 字 的 话 ， 那 么 将 会 链接 
_decoder float_float 这 个 方法 签名 ; 而 如 果 加 了 exterm“C” 关 键 字 的 话 ， 
那么 寻找 的 方法 签名 就 是 _decoder。 而 FFmpeg 就 是 C 语 言 书写 的 ， 编 
译 FFmpeg 的 时 候 所 产生 的 方法 签名 都 是 C 语 言 类 型 的 签名 ， 所 以 在 
C++ 中 引用 FFmpeg 必 须要 加 extern*C” 关 键 字 。 


可 以 看 到 ， 引 用 头 文件 的 方式 是 不 同 的 ， 因 为 每 个 平台 配置 的 
Header Search Path 是 不 一 样 的 ， 在 iO0S 的 IDE Xcode 开 发 中 ， 可 以 在 工 
程 文件 的 配置 中 修改 Header Search Path; 在 Android 的 底层 开发 中 ， 可 
以 配置 makefile 文 件 中 的 内 置 变量 LOCAL_C_INCLUDES 来 指定 头 文件 
的 搜索 路 径 ， 当 然 如 果 要 在 跨 平台 (Android 平 台 和 iOS 平 台 ) 的 模块 
(以 C++ 语言 编写 ) 中 引用 FFmpeg 的 头 文 件 ， 则 需要 编写 一 个 
platform_4 ffmpeg.h， 并 在 其 中 根据 各 个 平台 预定 义 的 安 去 编译 不 同 
的 引用 方式 ， 代 码 如 下 : 


#ifdef _ ANDROID _ 
extern "CcC" { 
#include "3rdparty/ffmpeg/include/libavformat/avformat.h" 
#include "3rdparty/ffmpeg/include/libswscale/swscale.h" 
#include "3rdparty/ffmpeg/include/libswresample/swresample.h" 
#include "3rdparty/ffmpeg/include/libavutil/pixdesc.h" 


} 
#elif defined(_ APPLE ) // i0S 或 0S X 
extern "CcC" { 
#include "libavformat/avformat.h" 
#include "libswscale/swscale.h" 
#include "libswresample/swresample.h" 
#include "libavutil/pixdesc.h" 


} 
#endif 


2. 注 册 协 议 、 格 式 与 编 解 码 天 


使 用 FFmpeg 的 APIL， 首先 要 调用 FFmpeg 的 注册 协议 、 格式 与 编 解 
码 狗 的 方法 ， 确 保 所 有 的 格式 与 编 解 码 器 都 和 个 注册 到 了 FFmpeg 框 染 
中 ， 当 然 如 果 需 要 用 到 了 网络 的 操作 ， 那 么 也 应 该 将 网 络 协议 部 分 注册 
到 FFmpeg 框 架 ， 以 便于 后 续 再 去 查找 对 应 的 格式 。 代 码 如 下 : 


avformat_network_init(); 
av_register_all(); 


文档 中 还 有 一 个 方法 是 avcodec_register_all () ， 其 用 于 将 所 有 编 
解码 絮 注 册 到 FFmpeg 框 架 中 ， 但 是 av_register_all 方 法 内 部 已 经 调用 了 
avcodec_register_all 方 法 ， 所 以 其 实 只 需要 调用 av_register_all 就 可 以 
了 了 [© 


3. 打 开始 体 文件 源 ， 并 设置 超时 回调 


注册 了 格式 以 及 编 解 码 器 之 后 ， 接 下 来 训 应 该 打开 对 应 的 媒体 文 
件 了 ， 当 然 该 文件 既 可 能 是 本 地 磁盘 的 文件 ， 也 可 能 十 网 络 媒体 资源 
的 一 个 链接 ， 如 果 是 网 络 链 接 ， 则 会 涉及 不 同 的 协议 ， 比 如 RTMP 、 
HTTP 等 协议 的 视频 源 。 打 开 媒 体 资 源 以 及 设置 超时 回调 的 代码 如 下 : 


AVFormatContext *formatCtx = avformat_alloc context(); 

AVIOInterruptCB int_ cb = {interrupt callback, (__ bridge void *)(self)}; 
formatCctx->interrupt_callback = int_cb,; 

avformat_open_input(formatctx, path, NULL, NULL); 

avformat_find_stream info(formatcCtx, NULL); 


4. 导 找 各 个 流 ， 并 且 打 开 对 应 的 解码 大 


上 一 步 中 已 打开 了 媒体 文件 ， 相 当 于 打开 了 一 根 电线 ， 这 根 电线 
里 面 其 实 还 有 一 条 红色 的 线 和 一 条 蓝 色 的 线 ， 这 束 和 媒体 文件 中 的 流 
非常 类 似 了 ， 红 色 的 线 代表 首 频 流 ， 监 色 的 线 代表 视频 流 。 所 以 这 一 
步 我 们 束 要 寻找 出 各 个 流 ， 然 后 找到 流 中 对 应 的 解码 器 ， 并 且 打 开 
已 O 


寻找 首 视 频 流 : 


for(int i = 0; i < formatCtx->nb_streams; i++) { 

AVStream* stream = formatCtx->streams[i]; 

if(AVMEDIA_TYPE_VIDEO == stream->codec->codec type) { 
// 视频 流 
VideoStreamIndex = i; 

} else if(AVMEDIA TYPE AUDIO == stream->codec->codec_ type ){ 
// 音频 流 

audioStreamIndex = 工 ; 


} 
} 


打开 首 频 流 解 码 句 : 


AVCodecContext * audiocodecCtx = audioStream->codec; 
AVCodec *codec = avcodec find decoder(audioCodecCtx ->codec id); 
if(!codec)t{ 


// 找 不 到 对 应 的 音频 解码 器 


int openCodecErrCode = 0; 

if ((openCodecErrCode = avcodec open2(codecCtx, codec, NULL)) < 0){ 
// 打开 音频 解码 器 失败 

} 


打开 视频 流 解 码 颖 : 


AVCodecContext *videoCodecCtx = videoStream->codec,; 
AVCodec *codec = avcodec find decoder(videoCodecCtx->codec_id); 
if(!codec) 


t 
// 找 不 到 对 应 的 视频 解码 器 


int openCodecErrCode = 0; 

if ((openCodecErrCode = avcodec open2(codecCtx, codec, NULL)) < 0) { 
// 打开 视频 解码 器 失败 

} 


5. 初 始 化 解码 后 数据 的 结构 体 


知道 了 音 视 频 解码 器 的 信息 之 后 ， 下 面 需要 分 配 出 解码 之 后 的 数 
据 所 存放 的 内 存 空间 ， 以 及 进行 格式 转换 需要 用 到 的 对 象 。 


构建 音频 的 格式 转换 对 象 以 及 音频 解码 后 数据 存放 的 对 象 : 


SwrContext *swrContext = NULL; 
if(audioCodecCtx->sample_fmt ! = AV_SAMPLE FMT_S16) { 
// 如 果 不 是 我 们 需要 的 数据 格式 
SwrContext = swr_alloc set_opts(NULL, 
outputCchannel, AV_SAMPLE_FMT_S16, outSampleRate, 
in_ch_lJayout, in_sample_fmt, in_sample_rate, 0, NULL); 
if(!swrContext || swr_init(swrContext)) { 
if(swrContext) { 
swr_free(&swrContext ); 


audioFrame = avcodec alloc frame(); 


} 


构建 视频 的 格式 转换 对 象 以 及 视频 解码 后 数据 存放 的 对 象 : 


AVPicture picture 
bool pictureValid = avpicture alloc(&picture, 
PIX_FMT_YUV420P, 
videoCodecCtx->width, 
videoCodecCtx->height) == 9， 
if (!pictureValid)t{ 
// 分 配 失败 
return false,; 


} 

swsContext = sws_getCachedContext(swsContext, 
videoCodecCtx->width, 
videoCodecCtx->height, 
videoCodecCtx->pix_fmt, 
videoCodecCtx->width, 
videoCodecCtx->height, 
PIX_FMT_YUV420P, 
SWS_FAST_BILINEAR, 

NULL, NULL, NULL); 
videoFrame = avcodec alloc frame(); 


6. 读 取 流 内 容 并 且 解 码 


打开 了 解码 器 之 后 ， 就 可 以 读 取 一 部 分 流 中 的 数据 (压缩 数 
据 ) ， 然 后 将 压缩 数据 作为 解码 器 的 输入 ， 解 码 妖 将 其 解码 为 原始 数 
据 ( 裸 数 据 ，， 之 后 就 可 以 将 原始 数据 写 入 文件 了 : 


AVPacket packet 
int gotFrame = 0; 
while(true) { 
if(av_read_ frame(formatContext, &packet)) { 
// End Of File 


break; 
} 
int packetStreamIndex = packet.stream index; 
Ifl(packetStreamIndex == VideoStreamIndex) { 
int len = avcodec decode video2(videoCodeccCtx, videoFrame, 
&gotFrame, &packet); 
if(len < 0) { 
break; 
} 
if(gotFrame) { 
self->handleVideoFrame(); 
} else if(packetStreamIndex == audioStreamIndex) { 
int len = avcodec decode audio4(audioCodeccCtx, audioFrame, 
&gotFrame, &packet); 
if(len < 0) { 
break; 
if(gotFrame) { 
self->handleVideoFrame(); 
} 
} 


7. 处 理解 码 后 的 裸 数据 


解码 之 后 会 得 到 神 数 据 ， 首 频 就 是 PCM 数 据 ， 视 频 整 是 YUV 数 
据 。 下 面 将 其 处 理 成 我 们 所 需要 的 格式 并 且 进 行 写 文 件 。 


音频 襟 数据 的 处 理 : 


void* audioData,; 
int numFrames; 
if(swrContext) { 
int bufSize = av_samples_get_buffer_size(NULL, channels, 
(int)(audioFrame->nb_samples * channels), 
AV_SAMPLE_FMT_S16, 1); 
if (!_swrBuffer || _swrBufferSize < bufSize) { 
swrBufferSize = bufSize; 
swrBuffer = realloc(_swrBuffer, _swrBufferSize),; 


} 

Byte *outbuf[2] = { _swrBuffer, © }; 

numFrames = swr_convert(_swrContext, outbuf, 
(int)(audioFrame->nb_samples * channels), 
(const uint8_t **) _ audioFrame->data, 
audioFrame->nb_samples); 

audioData = swrBuffer,; 
} else { 
audioData = audioFrame->data[0]; 
numFrames = audioFrame->nb_samples; 


接收 到 首 频 裸 数 据 之 后 ， 束 可 以 直接 写 文 件 了 ， 比 如 写 到 文件 


audio.pcm 中 。 


视频 襟 数据 的 处 理 : 


uint8_t* luma; 
uint8_t* chromaB， 
uint8_t* chromaR; 
if(videoCodecCtx->pix_fmt == AV_PIX_FMT_YUV420P || 
videoCodecCtx->pix_fmt == AV_PIX_FMT_YUVJ420P){ 
luma = copyFrameData(videoFrame->data[0], 
videoFrame->linesize[0], 
videoCodecCtx->width, 
videoCodecCtx->height); 
chromaB = copyFrameData(videoFrame->datal[1], 
videoFrame->linesize[1], 
VideocodecCtx->width / 2, 
videoCodecCtx->height / 2); 
chromaR = copyFrameData(videoFrame->data[2], 
videoFrame->linesize[2], 
videoCodecCctx->width / 2, 


VideocodecCtx->height / 2); 
} elsef{f 
sws_scale(_swsContext, 
(const uint8_t **)videoFrame->data, 
videoFrame->linesize, 


并 

videoCodecCtx->height, 
picture.data, 
picture.1linesize); 

luma = copyFrameData(picture.data[0], 
picture.linesize[0], 
videoCodecCtx->width, 
VideocodecCtx->height ) ， 

chromaB = copyFrameData(picture.data[1], 
picture.linesize[1], 
videoCodecCctx->width / 2, 
videoCodecCtx->height / 2); 

chromaR = copyFrameData(picture.data[2], 
picture.linesize[2], 
VideocodecCtx->width / 2, 
videoCodecCtx->height / 2); 


接收 到 YUV 数 据 之 后 也 可 以 直接 写 入 文件 了 ， 比 如 写 到 文件 
video.yuv 中 。 


8. 天 闭 所 有 资源 

解码 完毕 之 后 ， 或 者 在 解码 过 程 中 不 想 继续 解码 了 ， 可 以 退出 程 
序 ， 当 然 ， 退 出 的 时 候 ， 要 将 用 到 的 FFmpeg 框 染 中 的 资源 ， 包 括 
FFmpeg 框 架 对 外 的 连接 资源 等 全 都 释放 返 。 


关闭 首 频 资源 : 


if (swrBuffer) { 
free(swrBuffer); 
swrBuffer = NULL; 
swrBufferSize = 0; 


} 

if (swrContext) { 
Swr_free(&swrContext ) ; 
swrContext = NULL; 


If (audioFrame) { 
av_free(audioFrame); 
audioFrame = NULL， 


} 

if (audioCodecCtx) { 
avcodec_ close(audioCodecCtx); 
audioCodecCtx = NULL; 


关闭 视 频 资源 : 


if (swsContext) { 
sws_freeContext(swsContext); 
swsContext = NULL; 


} 

if (pictureValid) { 
avpicture_free(&picture); 
pictureValid = false,; 


if (videoFrame) { 
av_free(videoFrame); 
videoFrame = NULL,; 


} 

if (videoCodecCtx) { 
avcodec _ close(videoCodecCtx); 
VideocodecCtx = NULL; 

} 


天 财 连 接 资源 : 


if (formatCtx) { 
avformat_close_input(&formatCtx); 
formatCtx = NULL; 


} 


以 上 惑 是 利用 FFmpeg 解 码 的 全 部 过 程 了 ， 其 中 包括 打开 文件 流 、 
解析 格式 、 解 术 流 并 且 打 开 解 码 占 、 解 码 和 处 理 ， 以 及 最 终 天 闭 所 有 
资源 的 操作 。 项 目 实例 在 代码 仓库 中 十 FFmpegDecoder 项 目 。 关 于 
FFmpeg 的 API 调 用 其 实 也 就 是 这 些 步 又 ， 只 要 多 使 用 几 次 束 可 以 熟练 
掌握 ， 但 是 具体 到 FFmpeg 在 某 一 步 到 的 都 做 了 些 什么 操作 呢 ?3.3 市 
将 会 市 领 我 们 揭秘 FFmpeg 内 部 是 如 何 实现 这 些 处 理 的 。 


3.3 FFmpeg 源码 结构 


3.2 广 中 已 经 详细 介绍 了 了 FFmpeg 每 个 模块 的 作用 ， 并 有 旦 通过 图 3-1 
基本 了 解 了 FFmpeg 的 内 部 结构 ， 本 节 束 来 详细 地 看 一 下 FFmpeg 具 体 
每 个 模块 里 面 是 如 何 实现 目 己 的 职责 的 。 


3.3.1 jlibavformat 与 libavcodec 介 绍 


首先 ， 来 看 最 重要 的 模块 之 一 的 libavformat， 其 主要 组 成 与 层次 调 
用 天 系 如 图 3-2 所 示 。 


URLContext 


增加 Buffer 的 
缓冲 区 


AVIOContext(buffer) 


Demuxer/muxer 


AVFormatContext 
Streams 


图 3-2 


AVFormatContext 是 API 层 直接 接触 到 的 结构 体 ， 它 会 进行 格式 的 
封装 与 解 封 装 ， 它 的 数据 部 分 由 底层 提供 ， 底 层 使 用 了 AVIOContext， 
这 个 AVIOContext 实 际 上 就 是 为 普通 的 IO 增加 了 一 层 Buffer 缓 冲 区 ， 再 
往 底层 就 是 URLContext， 也 就 是 到 达 了 协议 层 ， 协 议 层 的 具体 实现 有 
很 多 ， 包 括 rtmp、http、hls、file 等 ， 这 就 是 libavformat 的 内 部 封装 了 。 


其 次 ， 再 来 看 另外 一 个 最 重要 的 模块 libavcodec， 其 主要 组 成 与 数 
据 结构 如 图 3-3 所 示 。 


AVStream: AVCodecContext: 
codec codec_ type 
priv_data codec id 
extra_data 


AVPacket: 
pts/dts 
data/size 
stream_index 
ET 
duration 


图 3-3 


存储 非 压缩 数据 

(视频 对 应 RGB/ 

YUV 像素 数据 ， 

音频 对 应 PCM 采 
样 数据 ) 


AVvVFrame: 
pts 
dts 

BE] 
Duration 


对 于 开发 者 来 说 ， 这 一 层 我 们 能 接触 到 的 最 顶层 的 结构 体 就 是 
AVCodecContext， 该 结构 体 包含 的 就 是 与 实际 的 编 解 码 有 关 的 部 分 。 
首先 ，AVCodecContext 是 包含 在 一 个 AVStream 里 面 的 ， 即 描述 了 这 路 
流 的 编码 格式 是 什么 ， 其 中 存放 了 具体 的 编码 格式 信息 ， 根 据 Codec 的 
信息 可 以 打开 编码 器 或 者 解码 器 ， 然 后 利用 该 编码 器 或 者 解码 器 进行 
AVPacket 与 AVFrame 之 间 的 转换 (实际 上 就 是 解码 或 者 编码 的 过 程 ) ， 
这 是 FFmpeg 中 最 重要 的 一 部 分 。 那 么 ， 接 下 来 就 来 看 一 下 在 API 中 调 
用 了 FFmpeg 的 一 些 方法 之 后 ，FFmpeg 内 部 到 底 做 了 些 什 么 呢 ? 


3.3.2 ”FFmpeg 通 用 API 分 析 


1.av_register_all 分 析 


还 记得 前 面 最 开始 编译 FFmpeg 的 时 候 ， 做 了 一 个 configure 的 配置 

吗 ? 其 中 开启 (enable) 或 者 关闭 (disable) 了 很 多 选项 ， 当 初 可 是 留 
了 一 句 话 ，configure 的 配置 会 生成 两 个 文件 : config.mk 与 config.h 。 
config.mk 实 际 上 残 是 makefile 文 件 需要 包含 进去 的 子 模 块 ， 会 作用 在 
编译 阶段 ， 大 助 开 发 者 编译 出 正确 的 库 ; 而 config.h 是 作用 在 运行 阶 
段 ， 这 一 阶段 将 确定 需要 注册 哪些 容 絮 以 及 编 解 码 格式 到 FFmpeg 框 架 
中 。 所 以 该 函数 的 内 部 实现 会 先 调 用 avcodec_register_all 来 注册 所 有 
config.h 里 面 开放 的 编 解码 器 ， 然 后 会 注册 所 有 的 Muxer 和 Demuxer 

(也 就 是 封装 格式 ) ， 最 后 注册 所 有 的 Protocol ( 即 协议 层 的 东西 ) 。 
这 样 一 来 ， 在 configure 过 程 中 开启 (enable) 或 者 关闭 (disable) 的 选 
项 承 恩 作用 到 了 运行 时 ， 该 函数 的 源码 分 析 涉 及 的 源码 文件 包括 : 


url.c、allformats.c、 mux.c、 format.c 等 文件 。 


2.av_find_codec 分 析 


这 里 面 其 实 包 含 了 两 部 分 的 内 容 : 一 部 分 是 寻找 解码 器 ， 一 部 分 
是 寻找 编码 屡 。 其 实在 第 一 步 的 avcodec_register_all 函 数 里 面 已 经 把 编 
码 孝 和 解码 噩 都 存放 到 一 个 链表 中 了 ， 在 这 里 寻找 编码 器 或 者 解码 右 
都 是 从 第 一 步 构造 的 链表 中 进行 和 通 历 ， 通 过 Codec 的 ID 或 者 name 进 行 
条 件 匹 配 ， 最 终 返 回 对 应 的 Codec。 


3.avcodec_open2 分 析 


该 函数 是 打开 编 解码 器 (Codec) 的 函数 ， 无 论 是 编码 过 程 还 是 
解码 过 程 ， 都 会 用 到 该 函数 ， 该 函数 的 输入 参数 有 三 个 :第 一 个 是 
AVCodecContext， 解 码 过 程 由 FFmpeg 引 擎 填充 ， 编 码 过 程 由 开发 者 自 
己 构 造 ， 如 果 想 要 传 入 私有 参数 ， 则 为 它 的 priv_data 设 置 参数 ， 比 如 
在 libx264 编 码 右 中 设置 preset、tune、profile 等 ， 第 二 个 参数 是 上 一 步 
通过 av_find_codec 寻 找 出 来 的 编 解 码 器 (Codec) ; 第 三 个 参数 一 般 会 
传递 NULL。 具 体 到 该 函数 的 实现 时 ， 就 会 找到 对 应 的 实现 文件 ， 那 
么 其 是 如 何 找 到 对 应 的 实现 文件 的 呢 ? 这 就 需要 回 到 人 第 一 步 中 来 看 看 
其 是 如 何 注 册 有 的， 比如 libx264 的 编码 嚣 ， 查 看 其 注册 会 发 现 


ff_libx264_encoder 结 构 体 的 定义 存在 于 libx264.c 中 ， 所 以 该 Codec 的 生 
命 周 期 方法 就 会 委托 给 该 结构 体 对 应 的 函数 指针 所 指 癌 的 函数 ，open 
对 应 的 就 是 init 函 数 指针 所 指 同 的 函数 ， 该 函数 里 面 就 会 调用 具体 的 编 
码 库 的 API， 比 如 libx264 这 个 Codec 会 调用 libx264 的 编码 库 的 API， 而 
LAME 这 个 Codec 会 调用 LAME 的 编码 库 的 API， 并 且 会 以 对 应 的 
AVCodecContext 中 的 priv_data 来 填充 对 应 第 三 方 库 所 需要 的 私有 参 

数 ， 如 果 开 发 者 没有 对 属性 priv_data 填 充值 ， 那 么 就 使 用 默认 值 。 


4.avcodec _close 分 析 


如 果 理 解 了 avcodec_open， 那 么 对 应 的 close 束 是 一 个 逆 过 程 ， 找 
到 对 应 的 实现 文件 中 的 close 函 数 指针 所 指 辐 的 函数 ， 然 后 该 函数 会 调 
用 对 应 第 三 方 库 的 API 来 关闭 掉 对 应 的 编码 库 。 其 实 FFmpeg 所 做 的 事 
情 束 是 透明 化 所 有 的 编 解 码 库 ， 用 自己 的 封装 来 为 开发 者 提供 统一 的 
接口 。 开 发 者 使 用 不 同 的 编码 库 时 ， 只 需要 指明 要 使 用 哪 一 个 即 可 ， 
这 也 充分 体现 了 面 回 对 象 编程 中 的 封 麦 特性， 关于 FFmpeg 面 问 对 象 的 
特性 后 续 还 会 进一步 讨论 。 


3.3.3 ”调用 FFmpeg 解 码 时 用 到 的 函数 分 析 
1.avformat_open_input 分 析 


函数 avformat_open_input 会 根据 所 提供 的 文件 路 径 判 断 文 件 的 格 
式 ， 其 实 束 是 通过 这 一 步 来 决定 使 用 的 到 发 是 哪 一 个 Demuxer。 举 例 
来 说 ， 如 果 是 flv， 那 么 Demuxer 束 会 使 用 对 应 的 ff flv_demuxer， 所 以 
对 应 的 关键 生命 周期 的 方法 read_header 、read_packet 、read_seek、 
read_close 都 会 使 用 该 flv 的 Demuxer 中 国 数 指针 指定 的 函数 。 
read_header 函 数 会 将 AVStream 结 构 体 构造 好 ， 以 便 后 续 的 步 又 继续 使 
用 AVStream 作 为 输入 参数 。 


2.avformat find_stream_info 分 析 


这 个 函数 非常 重要 ， 后 续 章 节 中 将 要 介绍 的 如 何在 直播 场景 下 的 
拉 流 客户 端 中 “ 秒 开 首 屏 "， 融 是 与 该 函数 分 析 的 代码 实现 县 县 相关 
的 ， 该 方法 的 作用 就 是 把 所 有 Stream 的 MetaData 信 息 填 充 好 。 方 法 内 
部 会 完 查 找 对 应 的 解码 器 ， 然 后 打开 对 应 的 解码 絮 ， 紧 接着 会 利用 
Demuxer 中 的 read_packet 函 数 读 取 一 段 数据 进行 解码 ， 当 然 解码 的 数 
据 越 多 ， 分 析出 的 流 信 息 束 会 越 准 确 ， 如 果 是 本 地 人 资源， 那么 很 快 就 
可 以 得 到 非常 准确 的 信息 了 ， 但 是 对 于 网 络 资源 来 说 ， 则 会 比较 慢 ， 
因此 该 函数 有 几 个 参数 可 以 控制 读 取 数 据 的 长 度 ， 一 个 是 probe size， 
一 个 是 max_analyze_duration， 还 有 一 个 是 fps_probe_size， 这 三 个 参数 
共同 控制 解码 数据 的 长 度 ， 当 然 ， 如 采 配 置 这 几 个 参数 的 值 越 小 ， 那 
么 这 个 函数 执行 的 时 间 吏 会 越 快 ， 但 是 会 导致 AVStream 结 构 体 里 面 一 
些 信 息 (视频 的 宽 、 高 、fps、 编 码 类 型 等 ) 不 准确 。 


3.av_read frame 分 析 


使 用 该 方法 读 取 出 来 的 数据 是 AVPacket， 在 FFmpeg 的 早期 版 本 中 
开放 给 开发 者 的 函数 其 实 就 是 av_read_packet， 但 是 需要 开发 者 目 己 来 
处 理 AVPacket 中 的 数据 不 能 被 解 码 器 完全 处 理 完 的 情况 ， 即 需要 把 未 
处 理 完 的 压缩 数据 缓存 起 来 的 问题 。 所 以 到 了 新 版 本 的 FFmpeg 中 ， 其 
提供 了 该 芳 数 ， 用 于 处 理 此 状况 。 该 贸 数 的 实现 下 先 会 委托 到 
Demuxer 的 read_packet 方 法 中 去 ， 当 然 read_packet 通 过 解 复 用 层 和 协议 
层 的 处 理 之 后 ， 会 将 数据 返回 到 这 里 ， 在 该 男 数 中 进行 数据 缓冲 处 


理 。 前 面 曾 说 过 ， 对 于 音频 流 ， 一 个 AVPacket 可 能 包含 多 个 
AVFrame， 但 是 对 于 视频 流 ， 一 个 AVPacket 只 包含 一 个 AVFrame， 该 
函数 最 终 只 会 返回 一 个 AVPacket 结 构 体 。 


4.avcodec_decode 分 析 


该 方法 包含 了 两 部 分 内 容 : 一 部 分 是 解码 视频 ， 一 部 分 是 解码 音 
频 。 在 上 面 的 函数 分 析 中 ， 我 们 知道 ， 解 码 是 会 委托 给 对 应 的 解码 吉 
来 实施 的 ， 在 打开 解码 器 的 时 候 就 找到 了 对 应 解码 器 的 实现 ， 比 如 对 
于 解码 H264 来 讲 ， 会 找到 ff_h264_decoder， 其 中 会 有 对 应 的 生命 周期 
函数 的 实现 ， 最 重要 的 就是 init、decode、dclose 这 三 个 方法 ， 分 别 对 应 
iy 、 解码 以 及 关闭 解码 絮 的 操作 ， 而 解码 过 程 就 是 调用 
decode 方 法 。 


5.avformat_close_input 分 析 


该 函数 负责 释放 对 应 的 资源 ， 首 先 会 调用 对 应 的 Demuxer 中 的 生 
命 周 期 read_close 方 法 ， 然 后 释放 掉 AVFormatContext， 最 后 关闭 文件 
或 者 远程 网 络 连 接 。 


3.3.4 ”调用 FFmpeg 编 码 时 用 到 的 函数 分 析 


1.avformat_alloc_output_context2 分 析 


该 函数 内 部 需要 调用 方法 avformat _alloc_context 来 分 配 一 个 
AVFormatContext 结 构 体 ， 当 然 最 关键 的 还 是 根据 上 一 步 注 册 的 Muxer 
和 Demuxer 部 分 〈 也 就 是 封装 格式 部 分 ) 去 找到 对 应 的 格式 。 有 可 能 
是 fv 格 式 、MP4 格 式 、mov 格 式 ， 甚 至 是 MP3 格 式 等 ， 如 果 找 不 到 对 
应 的 格式 ( 即 在 configure 选 项 中 没有 打开 这 个 格式 的 开关 ) ， 那 么 这 
里 会 返回 找 不 到 对 应 的 格式 的 错误 提示 。 在 调用 API 的 上 时候， 可 以 使 
用 av_err2str 把 返回 整数 类 型 的 错误 代码 转换 为 肉眼 可 读 的 字符 串 ， 这 
在 调试 的 时 候 是 一 个 比较 有 用 的 工具 函数 。 该 函数 最 终 会 将 找 出 来 的 
格式 赋值 给 AVFormatContext 类 型 的 oformat 。 


2.avio_open2 分 析 


首先 调用 函数 ffurl_open， 构 造 出 URLContext 结 构 体 ， 这 个 结构 体 
中 包含 了 URLProtocol (需要 去 第 一 步 register_protocol 中 已 经 注册 的 协 
议 链 表 中 寻找 ) ; 接着 会 调用 avio_alloc_context 方 法 ， 分 配 出 
AVIOContext 结 构 体 ， 并 将 上 一 步 构造 出 来 的 URLProtocol 传 递 进来 ; 
然后 把 上 一 步 分 配 出 来 AVIOContext 结 构 体 赋值 给 AVFormatContext 的 
属性 ， 其 实 这 束 是 图 3-2 表 示 的 结构 了 。 而 该 过 程 恰好 是 上 面 所 分 析 的 
avformat_open_input 函 数 的 实现 过 程 的 一 个 逆 过 程 。 之 前 束 提 到 过 ， 
编码 过 程 和 解码 过 程 从 还 辑 上 来 讲 本 来 职 是 一 个 逆 过 程 ， 所 以 在 
FFmpeg 的 实现 过 程 中 它们 也 是 一 个 逆 过 程 。 


后 面 的 步骤 也 都 是 解码 的 一 个 逆 过 程 ， 解 码 过 程 中 的 
avV_find_stream_info 对 应 到 这 里 就 是 avformat_new_stream 和 和 
avformat_write_header 。avformat_new_stream 函 数 会 将 音频 流 或 者 视频 
流 的 信息 填充 好 ， 分 配 出 AVStream 结 构 体 ， 在 音频 流 中 分 配 声 道 、 采 
样 率 、 表 示 格 式 、 编 码 怖 等 信息 ， 在 视频 流 中 分 配 宽 、 高 、 帧 率 、 表 
示 格 式 、 编 码 器 等 信息 ;avformat_write_header 芳 数 与 解码 过 程 中 的 
read_header 恰 好 是 一 个 撑 过程 ， 因 此 这 里 将 不 再 介绍 。 接 下 来 束 是 编 
码 的 阶段 了 ， 开 发 者 需要 将 手动 封装 好 的 AVFrame 结 构 体 ， 作 为 
avcodec_encode_video 方 法 的 输入 ， 将 其 编码 成 为 AVPacket， 然 后 调用 
av_write_frame 方 法 输出 到 媒体 文件 中 。 而 av_write_frame 方 法 会 将 编 


码 后 的 AVPacket 结 构 体 作为 Muxer 中 的 write_packet 生 命 周期 方法 的 输 
入 ，write_packet 函 数 会 加 上 目 己 封装 格式 的 头 信 息 ， 然 后 调用 协议 层 
写 到 本 地 文件 或 者 网 络 服务 左上。 最 后 一 步 就 是 av_write_trailer， 该 函 
数 有 一 个 非常 大 的 坑 ， 如 果 没 有 执行 write_header 操 作 ， 束 直接 执行 
write _trailer 操 作 ， 程 序 会 直接 朋 总 〈 即 Crash 掉 ) ， 所 以 必须 保证 这 两 
个 函数 成 对 出 现 。write_trailer 函 数 的 实现 会 把 没有 和 输出 的 AVPacket 全 
部 丢 给 协议 层 去 做 输出 ， 然 后 会 调用 Muxer 的 write_trailer 生 命 周 期 方 
法 ， 对 于 不 同 的 格式 写 出 的 尾部 也 不 尽 相同 ， 这 里 不 再 逐一 介绍 。 


对 于 FFmpeg 的 使 用 以 及 源码 分 析 ，CSDN 上 有 一 个 名 叫 雷 雷 骅 的 
博 主 对 此 分 析 得 非常 细致 ， 非 常 不 辛 的 是 ， 雷 雷 骅 现在 已 经 去 世 了 ， 
笔者 曾经 和 雷 雷 骅 交谈 过 ， 对 于 雷 雷 骅 的 分 享 精神 以 及 他 对 刚 进入 视 
频 领域 新 手 的 耐心 指导 都 非常 钦佩 ， 其 实在 国内 很 多 使 用 FFmpeg 的 人 
或 多 或 少 都 听 说 过 雷 霄 骅 这 个 名 字 ， 他 无 私 地 帮助 了 很 多 人 ， 作 为 一 
个 技术 人 员 ， 我 为 他 感到 骄傲 。 


3.3.5 面 问 对象 的 C 语 言 设计 


笔者 重 恋 了 FFmpeg 的 源码 之 后 写 下 了 上 面 的 分 析 内 容 ， 但 是 这 里 
想 要 和 大 家 聊 一 个 更 高 层次 的 内 容 ， 即 面 问 对 象 与 面 癌 结构。 有 人 说 
C 语 言 是 面 回 结构 的 语言 ， 写 出 来 的 代码 虽然 性 能 很 高 ， 但 是 可 读 性 
与 维护 性 很 差 ， 没 有 面 回 对 象 程序 设计 的 思维 ， 很 难 做 出 大 型 项 目 。 
既然 已 经 分 机 了 FFmpeg 的 源码 ， 那 么 我 们 可 以 想 一 想 FFmpeg 这 么 强 
大 的 开源 媒体 处 理 库 ， 它 的 稳定 性 与 迭代 速度 在 业界 中 其 实生 非常 不 
错 的 ， 并 且 其 扩展 性 与 代码 可 读 性 也 是 相当 好 的 ， 所 以 扩展 性 与 可 读 
性 真 的 与 语言 或 者 编程 思想 有 关系 吗 ? 既然 已 经 读 到 了 这 里 ， 那 束 说 
明 大 家 对 FFmpeg 已 经 有 了 整体 的 了 解 ， 下 面 再 回 到 最 开始 来 看 看 
FFmpeg 征 如 何 被 编译 以 及 使 用 的 。 


在 编译 的 时 候 可 以 进行 配置 ， 既 可 以 纵向 裁剪 模块 (是 否 还 记得 
configure 里 面 的 disable-avdevice、disable-muxers、disable-decoders) ， 
又 可 以 横向 裁剪 支持 的 格式 、 编 解码 器 (enable-muxer=flv、enable- 
decoder=aac、enable-encoder=libfdk_aac) 。 该 框架 支持 多 种 格式 、 多 
种 编 解码 器 、 多 种 首 视 频 滤 镜 处 理 ， 关 键 是 如 有 果 后 期 增加 格式 、 编 解 
码 器 、 首 视频 滤 镜 只 需要 新 增 代码 与 修改 配置 文件 (configure) ， 而 
不 需要 改动 已 有 框架 的 代码 层面 。FFmpeg 里 面 利 用 C 语 言 结构 体 的 定 
义 (如 encoder 的 init、open、decode、encode、close 等 方法 ) 与 语言 特 
性 ， 实 现 了 面向 接口 编程 ， 而 且 完 全 符合 开 闭 原则 一 一 对 新 增 代 码 开 
放 ， 对 修改 代码 关闭 ， 这 也 是 FFmpeg 能 做 到 代码 的 可 读 性 与 扩展 性 的 
精 要 部 分 。 其 实 写 代码 (Coding) 提升 的 过 程 也 是 我 们 对 事物 认识 提 
升 的 过 程 ， 只 要 跳出 FFmpeg 框 架 的 具体 实现 ， 再 来 看 它 的 实现 思想 ， 
残 可 以 得 到 更 多 的 收获 。 


下 面 束 以 一 个 短小 的 篇 幅 来 分 析 一 下 libx264 编 码 侨 是 如 何 被 增加 
en 。 首先 新 增 libx264.c 这 个 文件 ， 在 文件 中 定义 结构 


AVCodec libx264 encoder = { 
,name = ”libx264” 
type = CODEC_TYPE_VIDEO 
.id=CODEC_ID_H264 
.priv_data size=sizeof(X264Context) 
.init=X264_init 
.encode=X264_frame 


.Close=X264_close 


通过 结构 体 可 以 看 到 对 于 编码 器 几 个 生命 周期 方法 的 定义 ， 其 
实 ， 新 增 的 libx264.c 实 际 上 就 是 FFmpeg 对 于 第 三 方 libx264 库 的 一 个 圭 
装 ， 提 供给 用 户 的 API 都 是 固定 的 FFmpeg 的 API， 而 libx264.c 文 件 就 相 
当 于 是 第 三 方 库 libx264 的 客户 端 代码 。 在 使 用 libx264 编 码 的 时 候 ， 开 
需要 编译 静态 库 x264， 然 后 作为 External-libs 的 形式 加 入 到 FFmpeg 
匡 架 中 。 


当 我 们 在 外 界 调用 avcodec_find_encoder 的 时 候 ， 就 会 去 寻找 这 个 
结构 体 ， 当 调用 avcodec_open 的 时 候 就 会 调用 到 结构 体 的 init 方 法 ， 进 
而 会 调用 到 新 增 的 这 个 文件 中 的 X264_init 方 法 ， 而 在 X264_init 方 法 
中 ， 则 会 调用 真正 的 libx264 库 里 面 的 API; 当 调 用 avcodec_encode 的 时 
候 就 会 调用 结构 体 的 encode 方 法 ， 进 而 会 调用 X264_frame 方 法 ， 而 在 
X264 _ frame 方法 中 则 会 真正 地 使 用 libx264 的 API;， 类 似 地 ， 当 调用 
avcodec_close 的 时 候 ， 束 会 调用 X264_close 这 个 方法 ; 当然 对 于 一 些 
私有 的 配置 ， 将 统一 放 到 AVCodecContext 的 priv_data 里 面 去 ， 然 后 在 
初始 化 X264 库 的 时 候 取出 来 ， 并 对 X264 库 中 的 API 进 行 设 置 。 


3.4 本章 小 结 


至 此 ， 对 于 FFmpeg 的 介绍 就 结束 了 ， 当 然 FFmpeg 库 的 强大 是 众 
所 周知 的 ， 显 然 用 一 章 的 篇 幅 要 想 将 其 讲 得 特别 透彻 几乎 是 不 可 能 
的 ， 本 章 用 了 大 量 篇 幅 来 讲解 如 何在 多 个 平台 上 编译 、 安 装 、 使 用 命 
令 行 ， 以 及 如 何以 API 的 方式 使 用 FFmpeg， 并 且 对 FFmpeg 的 源码 也 做 
了 分 析 ， 最 后 进行 了 一 个 升华 ， 分 析 了 FFmpeg 是 如 何 使 用 面向 结构 的 
C 语 言 来 满足 开 闭 原则 的 ， 并 使 得 整个 FFmpeg 代 码 的 可 读 性 与 扩展 性 
都 能 达到 一 个 非常 高 的 级 别 。 


后 面 的 章节 将 会 用 到 本 章 的 内 容 ， 请 大 家 重点 掌握 FFmpeg 在 代码 
层面 API 方 式 的 使 用 ， 当 然 命令 行 的 使 用 可 以 作为 工具 来 了 解 ， 用 多 
了 就 都 能 记 住 了 。 本 章 的 项 目 实 例 是 代码 上 日 录 的 FFmpegDecoder 项 
目 ， 在 Android 平 台 下 ， 需 要 把 resource 目 好 下 面 的 131.mp3 复 制 到 
sdcard 的 根 日 录 下 。 无 论 是 在 Android 还 是 在 iOS 平 台 下 ， 最 终 输出 的 日 
标 文件 都 可 以 用 ffplay 指 定 声 道 、 采 样 率 以 及 表示 格式 ， 以 进行 播放 ， 
如 宁可 以 正常 播放 则 代表 我 们 的 解码 是 成 功 的 。 


第 4 章 ”移动 平台 下 的 首 视频 渔 染 


前 面 的 革 市 基本 上 都 在 介绍 首 视 频 的 概念 与 工具 的 使 用 ， 如 有 果 再 
不 动手 融 一 些 代码 ， 想 必 工 程 师 读者 都 会 有 点 手 痒 了 吧 。 那 就 动手 实 
践 起 来 吧 ! 本 半 将 主要 讲解 OS 平台 和 Android 平 台 上 的 首 视频 泻 染 ， 
即 接收 到 首 视 频 的 原始 数据 之 后 ， 如 何 利用 iOS 平 台 与 Android 平 台 的 
API 演 染 到 扬声器 (Speaker) 或 者 屏幕 (View) 上 。 声 音 的 泻 染 在 iOS 
平台 上 会 直接 使 用 AudioUnit (AUGraph) 之 类 的 API 接 口 ，Android 平 
台 则 使 用 OpenSL ES 或 者 AudioTrack 这 两 类 接口 。 而 对 于 视频 画面 的 
泻 染 ， 笔 者 会 为 大 家 介绍 一 种 跨 平 台 的 泻 染 技术 ， 即 OpenGL ES， 本 
革 将 根据 两 个 平台 各 目 提 供 的 API 来 构造 出 OpenGL ES 环境 ， 然 后 再 利 
用 统一 的 OpenGL 程 序 (Program ) 将 一 张 图 片 泻 染 到 屏幕 上 。 


4.1 _ AudioUnit 介 绍 与 实践 


在 iOS 平 台 上 ， 所 有 的 音频 框 染 压 层 都 是 基于 AudioUnit 实 现 的 ， 如 
图 4-1 所 示 。 较 高 层次 的 首 频 框架 包括 : Media Player、AV Foundation 、 
OpenAL 和 Audio Toolbox， 这 些 框 架 都 封 狼 了 AudioUnit， 然 后 提供 了 更 
高 层次 的 API (功能 更 少 ， 职 责 更 单一 的 接口 ) 。 


Media Player AV Foundation 


OpenAL Audio Toolbox Foundation 


Drivers and Hardware 


图 4-1 


当 开 发 者 在 开发 音频 相关 产品 的 时 候 ， 如 果 对 音频 需要 更 高 程度 
的 控制 、 性 能 以 及 灵活 性 ， 或 者 想 要 使 用 一 些 特殊 功能 〈 回 声 消 除 ) 
的 时 候 ， 可 以 直接 使 用 AudioUnit API。 苹 果 官 方 文档 中 描述 ， 
AudioUnit 提 供 了 音频 快速 的 模块 化 处 理 ， 如 有 果 有 是 在 以 下 场景 中 ， 更 适 
合 使 用 AudioUnit 而 不 是 使 用 高 层次 的 首 频 框架 。 


` 想 使 用 低 延 迟 的 音频 WO (input 或 者 output) ， 比 如 说 在 VoIP 的 应 


全 
:多 路 声音 的 合成 并 且 回 放 ， 比 如 游戏 或 者 首 乐 合成 絮 的 应 用 。 


使 用 AudioUnit 里 面 提供 的 特有 功能 ， 比 如 :回声 消除 、Mix 两 轨 
首 频 ， 以 及 均衡 器 、 压 缩 器 、 混 啊 右 等 效果 器 。 


-需要 图 状 结构 来 处 理 首 频 ， 可 以 将 首 频 处 理 模 块 组 装 到 灵活 的 图 
状 结构 中 ， 苹 果 公 司 为 首 频 开发 者 提供 了 这 种 API 。 


本 的 讲解 将 会 从 创建 音频 会 话 开 始 ， 然 后 构建 一 个 AudioUmnit， 
并 给 AudioUnit 设 置 参数 ， 然 后 介绍 AudioUnit 的 分 类 ， 最 终 会 构建 一 个 


AUGraph 来 完成 一 个 音频 播放 的 功能 ， 现 在 让 我 们 开始 本 市 的 学 习 
吧 。 


1. 认 识 AudioSession 
在 iOS 的 音 视 频 开发 中 ， 使 用 具体 API 之 前 都 会 完 创建 一 个 会 话 ， 
这 里 也 不 例外 。 但 在 这 之 前 ， 先 来 认识 一 下 音频 会 话 


(AudioSession) ， 其 用 于 管理 与 获取 iOS 设 备 首 频 的 硬件 信息 ， 并 且 
是 以 单 例 的 形式 存在 。 可 以 使 用 如 下 代码 来 获取 AudioSession 的 实例 : 


AVAudioSession *audioSession = [AVAudioSession sharedInstance]， 


获得 AudioSession 的 实例 之 后 ， 束 可 以 设置 以 何 种 方式 使 用 音频 硬 
件 做 哪些 处 理 了 ， 基 本 的 设置 具体 如 下 所 示 。 


1) 根据 我 们 需要 硬件 设备 提供 的 能 力 来 设置 类 别 |: 
[audioSession setCategory:AVAudioSessionCategoryPlayAndRecord error:&error]; 
2) 设置 /O 的 Buffer，Buffer 越 小 则 说 明 延 迟 越 低 : 


NSTimeInterval bufferDuration = 0.002; 
[audioSession setPreferredIOBufferDuration:bufferDuration error:&error]; 


3) 设置 采样 频率 ， 让 硬件 设备 按照 设置 的 采样 频率 来 采集 或 者 播 


放 首 频 : 


double hwSsampleRate = 44100.0; 
[audioSession setPreferredSampleRate:hwSampleRate error:&error]; 


, 当 设 置 完 毕 所 有 的 参数 之 后 就 可 以 激活 AudioSession 了 ， 代 码 
虽 下: 


[audioSession setActive:YES error:&error]; 


2. 构 建 AudioUnit 


在 创建 并 启用 音频 会 话 之 后 ， 就 可 以 构建 AudioUnit 了 。 构 建 
AudioUnit 的 时 候 需 要 指定 类 型 (Type) 、 子 类 型 (subtype) 以 及 厂商 
(Manufacture) 。 类 型 (Type) 就 是 在 下 一 人 小节 提 到 的 四 大 类 型 的 
AudioUnit 的 Type; 而 子 类 型 (subtype) 就 是 该 大 类 型 下 面 的 子 类 型 
(比如 Effect 该 大 类 型 下 面 有 EQ、Compressor、1limiter 等 子 类 型 ) ; 三 

商 (Manufacture) 一 般 情 况 下 比较 固定 ， 直 接 写 成 
kAudioUnitManufacturer_Apple 就 可 以 了 。 利 用 以 上 这 三 个 变量 开发 者 
可 以 完整 描述 出 一 个 AudioUnit 了 ， 比 如 使 用 下 面 的 代码 创建 一 个 
RemoteIO 类 型 的 AudioUnit: 


AudioComponentDescription ioUnitDescription; 
ioUnitDescription.componentType = kAudioUnitType_Output; 
ioUnitDescription.componentSubType = kAudioUnitSubType_RemoteI0; 
ioUnitDescription.componentManufacturer=kAudioUnitManufacturer_Apple; 
ioUnitDescription.componentFlags = 0; 
ioUnitDescription.componentFlagsMask = 0; 


上 述 代 码 构 造 了 RemoteIO 类 型 的 AudioUnit 摘 述 的 结构 体 ， 那 么 如 
何 使 用 A a ad 有 两 种 方式 ， 第 一 种 方式 
是 直接 使 用 AudioUnit 裸 的 创建 方式 ， 第 二 种 方式 是 使 用 AUGraph 和 
AUNode (其 实 一 个 AUNode 就 息 对 AudioUnil 的 则 装 ， 可 以 理解 为 一 个 
AudioUnit 的 Wrapper) 来 构建 。 下 面 就 来 分 别 介 绍 这 两 种 方式 。 
(1) 裸 创 建 方式 


首先 根据 AudioUnit 的 描述 ， 找 出 实际 的 AudioUnit 类 型 : 


AudioComponent ioUnitRef = AudioComponentFindNext(NULL, &ioUnitDescription); 


然后 声明 一 个 AudioUnit3| 用 : 


AudioUnit ioUnitInstance; 


最 后 根据 类 型 创建 出 这 个 AudioUnit 实 例 : 


AudioComponentInstanceNew(ioUnitRef, &ioUnitInstance); 


(2) AUGraph 创 建 方式 
首先 声明 并 且 实 例 化 一 个 AUGraph: 


AUGraph processingGraph,; 
NewAUGraph (&processingGraph); 


然后 按照 AudioUnit 的 描述 在 AUGraph 中 增加 一 个 AUNode: 


AUNode ioNode,; 
AUGraphAddNode (processingGraph, &ioUnitDescription, &ioNode); 


接 下 来 打开 AUGraph， 其 实 打 开 AUGraph 的 过 程 也 是 间接 实例 化 
AUGraph 中 所 有 的 AUNode。 注 意 ， 必 须 在 获取 AudioUnit 之 前 打开 整个 
AUGraph， 否 则 我 们 将 不 能 从 对 应 的 AUNode 中 获取 正确 的 AudioUnit: 


AUGraphopen (processingGraph); 


最 后 在 AUGraph 中 的 某 个 Node 里 获得 AudioUnit 的 引用 : 


AudioUnit ioUnit ， 
AUGraphNodeInfo (processingGraph, ioNode, NULL, &ioUnit); 


无 论 是 使 用 上 面 的 哪 一 种 方式 创建 AudioUnit， 都 可 以 创建 出 我 们 
想 要 的 AudioUnit， 而 具体 应 该 使 用 哪 一 种 方式 来 创建 AudioUnit， 还 需 
要 根据 实际 的 应 用 场景 来 决定 。 但 是 笔者 在 实际 的 工作 经 验 中 认识 
到 ， 使 用 AUGraph 的 结构 在 应 用 中 可 以 搭建 出 扩展 性 更 高 的 系统 ， 所 
以 推荐 使 用 第 二 种 方式 ， 本 章 后 面 的 实例 代码 都 是 使 用 第 二 种 方式 
(AUGraph 的 架构 ) 来 搭建 整个 音频 处 理 系统 的 。 


3.AudioUnit 的 通用 参数 设置 


本 节 将 以 RemoteIO 这 个 AudioUnit 为 例 来 讲解 AudioUnit 的 参数 设 
置 ，RemoteIO 这 个 AudioUnit 是 与 硬件 IO 相关 的 一 个 Unit， 它 分 为 输入 


端 和 输出 端 (I 代表 Input，O 代 表 Output) 。 输 入 端 一 般 是 指 麦 元 风 ， 
输出 端 一 般 是 指 扬声器 (Speaker) 或 者 耳机 。 如 果 需 要 同时 使 用 输入 
输出 ， 即 K 歌 应 用 中 的 耳 返 功能 (用 户 在 唱歌 或 者 说 话 的 同时 ， 耳 机 会 
将 麦克 风 收 录 的 声音 播放 出 来 ， 让 用 户 能 够 听 到 自己 的 声音 ) ， 则 需 
要 开发 者 做 一 些 设置 将 它们 连接 起 来 ， 如 图 4-2 所 示 。 


Input scope Output scope 


A 


4) 


Your application 


图 4-2 


图 4-2 中 RemoteIO Unit 分 为 Element0 和 Elementl1， 其 中 Element0 控 
制 输出 端 ，Element1 探 制 输入 端 ， 同 时 每 个 Element 又 分 为 Input Scope 
和 Output Scope。 如 果 开 发 者 想 要 使 用 扬声器 的 声音 播放 功能 ， 那 么 必 
须 将 这 个 Unit 的 Element0 的 OutputScope 和 Speaker 进 行 连接 。 而 如 果 开 
发 者 想 要 使 用 麦克 风 的 录音 功能 ， 那 么 必须 将 这 个 Unit 的 Element1 的 
InputScope 和 麦克 风 进 行 连接 。 使 用 扬声器 的 代码 如 下 : 


OSStatus status = noErr; 

UInt32 oneFlag = 1; 

UInt32 buszero = 0;// Element 0 

status = AudioUnitSetProperty(remoteIOUnit, 
kAudioOutputUnitProperty_EnableIo, 
kAudioUnitScope_Output, 
buszero, 
&oneFlag, 
sizeof (oneFlag)); 

CheckStatus(status, @"Could not Connect To Speaker", YES); 


上 面 这 段 代 码 就 是 把 RemoteIOUnit 的 Element0 的 OutputScope 连 接 
到 Speaker 上 ， 连 接 过 程 会 返回 一 个 OSStatus 类 型 的 值 ， 可 以 使 用 目 定 
义 的 CheckStatus 函 数 来 判断 销 误 并 且 输 出 Could not Connect To Speaker 
的 提示 。 具 体 的 CheckStatus 函 数 如 下 : 


static void CheckStatus(0SStatus status, NSString *message, BOOL fatal) 
if(status != noErr) 


char fourcc[16]; 
*(UINt32 *)fourcCC = CFSwapInt32HostToBig(status); 
fourcc[4] = 和 0 
Ifl(isprint(fourcc[0]) && isprint(fourcCc[1]) && isprint(fourcCc[2]) && 
Isprint(fourcc[3])) 
NSLog(@"%@: %s"，message，Tfourcc) ， 
else 
NSLog(@"%@: %d", message, (int)status); 
if(fatal) 
exit(-1); 


所 下 来 再 来 看 一 下 如 何 局 用 麦克 风 的 代码 : 


UInt32 busone = 1; // Element 1 
AudioUnitSetProperty(remoteIOUnit, 
kAudioOutputUnitProperty_EnableIo, 
kAudioUnitScope_Input, 
busone, 
&oneFlag, 
sizeof (oneFlag); 


上 面 这 段 代码 就 是 把 RemoteIOUnit 的 Element1 的 InputScope 连 接 上 
麦克 风 。 连 接 成 功 之 后 ， 就 应 该 给 AudioUnit 设 置 数据 格式 了 ， 
AudioUnit 的 数据 格式 分 为 输入 和 输出 两 个 部 分 ， 下 面 先 来 看 一 个 Audio 


Stream Format 的 描述 : 


UInt32 bytesPerSample = sizeof(Float32); 

AudioStreamBasicDescription asbd; 

bzero(&asbd, sizeof(asbd)); 

asbd.mFormatID = kAudioFormatLinearPCM,; 

asbd.mSampleRate = _sampleRate,; 

asbd.mChannelsPerFrame = channels,; 

asbd,mFramesPerPacket = 1; 

asbd.mFormatFlags = kAudioFormatFlagsNativeFloatPacked 
kAudioFormatFlagIsNonInterleaved,; 

asbd.mBitsPperChannel] = 8 * bytesPerSample,; 

asbd.mBytesPerFrame = bytesPerSample; 

asbd,mBytesPerPacket = bytesPerSample; 


上 面 这 段 代码 展示 了 如 何 填 充 AudioStreaamBasicDescription 结 构 
体 ， 其 实在 iOS 平 台 做 音 视 频 开 发 人 了 就 会 知道 : 不 论 首 频 还 是 视频 的 
API 都 会 接触 到 很 多 StreamBasic Description， 该 Description 职 是 用 来 描 
述 音 视频 具体 格式 的 。 下 面 残 来 具体 分 析 一 下 上 述 代码 是 如 何 指定 格 


式 的 。 


-mFormatID 参 数 可 用 来 指定 首 频 的 编码 格式 ， 此 处 指定 首 频 的 编 
码 格式 为 PCM 格 式 。 


- 接 下 来 是 设置 声音 的 采样 率 、 声 道 数 以 及 每 个 Packet 有 儿 个 


Frame ° 


-mFormatFlags 是 用 来 指 述 声音 表示 格式 的 参数 ， 代 码 中 的 第 一 个 
参数 指定 每 个 sample 的 表示 格式 是 Float 格 式 ， 这 点 类 似 于 之 前 讲解 的 
每 个 sample 都 是 使 用 两 个 字 节 (SInt16) 来 表示 ; 然后 是 后 面 的 参数 
NonInterleaved， 字 面 理解 这 个 单词 的 意思 是 非 交 错 的 ， 其 实 对 于 首 频 
来 讲 就 是 左右 声 道 是 非 交 错 存 放 的 ， 实 际 的 音频 数据 会 存储 在 一 个 
AudioBufferList 结 构 中 的 变量 mBuffers 中 ， 如 果 mFormatFlags 指 定 的 古 
NonlInterleaved， 那 么 左 声 道 束 会 在 mBuffers[0] 里 面 ， 右 声 道 就 会 在 
mBuffers[1] 里 面 ， 而 如 果 mFormatFlags 指 定 的 是 Interleaved 的 话 ， 那 么 
左右 声 道 就 会 交错 排列 在 mBuffers[0] 里 面 ， 理 解 这 一 点 对 于 后 续 的 开 
发 将 是 十 分 重要 的 。 


- 接 下 来 的 mBitsPerChannel 表 示 的 是 一 个 声 道 的 音频 数据 用 多 少 位 
来 表示 ， 前 面 已 经 提 到 过 每 个 采样 使 用 Float 来 表示 ， 所 以 这 里 是 使 用 8 
乘 以 每 个 采样 的 字 节 数 来 赋值 。 


.最 终 是 参数 mBytesPerFrame 和 mBytesPerPacket 的 赋值 ， 这 里 需要 
根据 mFormatFlags 的 值 来 进行 分 配 ， 如 有 果 在 NonInterleaved 的 情况 下 ， 
就 赋值 为 bytesPerSample (因为 左右 声 道 是 分 开 存 放 的 ) ; 但 如 果 是 
Interleaved 的 话 ， 那 么 就 应 该 是 bytesPerSample*channels (因为 左右 声 
道 是 交错 存放 的 ) ， 这 样 才能 表示 一 个 Frame 里 面 到 底 有 多 少 个 byte。 


至 此 ， 我 们 就 完全 构造 好 了 这 个 BasicDescription 结 构 体 ， 下 面 将 
这 个 结构 体 设 置 给 对 应 的 AudioUnit， 代 码 如 下 : 


AudioUnitSetProperty( remoteIOUnit,KkAudioUnitProperty_StreamFormat, 
kAudioUnitScope _ Output, 1, &asbd, sizeof(asbd)); 


4.AudioUnit 的 分 类 


介绍 完了 AudioUnit 的 通用 设置 之 后 ， 本 万 天 来 介绍 一 下 AudioUnit 
的 分 类 。iOS 按 照 AudioUnit 的 用 途 将 AudioUnit 分 为 五 大 类 型 ， 本 节 将 
从 全 局 的 角度 出 发 来 认识 各 大 类 型 以 及 其 下 的 子 类 型 ， 并 且 还 会 介绍 
它们 的 用 途 ， 以 及 对 应 参数 的 意义 。 


(1) Effect Unit 


类 型 是 kAudioUnitType_Effect， 主 要 提供 声 首 特效 处 理 的 功能 。 其 
子 类 型 及 用 途 说 明 如 下 。 


-均衡 效果 器 : 子 类 型 是 kAudioUnitSubType_NBandEQ， 主 要 作用 
为 声音 的 茶 些 频 市 增强 或 者 减弱 能 量 ， 该 效果 器 需 要 指定 多 个 频 
然后 为 各 个 频带 设置 宽度 以 及 增益 ， 最 终 将 改变 声音 在 频 域 上 的 
量 分 布 。 


.压缩 效果 器 : 子 类 型 是 kKAudioUnitSubType_DynamicsProcessor， 
主要 作用 是 当 声 首 较 小 的 时 候 可 以 提高 声音 的 能 量 ， 当 声 首 的 能 量 超 
过 了 设置 的 阔 值 时 ， 可 以 降低 声 首 的 能 量 ， 当 然 应 合理 地 设置 作用 时 
则 、 释 放 时 间 以 及 触发 值 ， 使 得 最 终 可 以 将 声 首 在 时 域 上 的 能 量 压 缩 
到 一 定 范 围 之 内 。 


: 混 啊 效果 器 : 子 类 型 是 kAudioUnitSubType_Reverb2， 对 于 人 声 处 
理 来 讲 这 古 非 常 重要 的 效果 器 ， 可 以 想象 自己 映 处 在 一 个 空房 子 中 ， 
如 条 有 非常 多 的 反射 声 和 原始 声音 受 加 在 一 起 ， 那 么 从 听 感 上 可 能 会 
更 有 震撼 力 ， 但 是 同时 原始 声音 也 会 变 得 更 加 模糊 ， 原 始 声 音 的 一 些 
细 世 会 被 遮盖 把 ， 所 以 混 啊 设置 的 大 或 者 小 对 于 不 同 的 人 来 讲 会 很 不 
一 致 ， 可 以 根据 目 己 的 喜好 来 进行 设置 。 


Effect Unit 下 最 常 使 用 的 就 是 上 述 三 种 效果 器 ， 当 然 其 下 还 有 很 多 
种 子 类 型 的 效果 器 ， 像 高 通 (High Pass) 、 低 通 (Low Pass) 、 带 通 
(Band Pass) 、 延 迟 (Delay) 、 压 限 (Limiter) 等 效果 器 ， 大 家 可 以 
自行 尝试 使 用 一 下 ， 感 受 一 下 各 自 的 效果 。 


(2) Mixer Units 


焉 坦 并 


类 型 是 kAudioUnitType_Mixer， 主 要 提供 Mix 多 路 声音 的 功能 。 其 
子 类 型 及 用 途 如 下 。 


.3D Mixer: 该 效果 器 在 移动 设备 上 是 无 法 使 用 的 ， 仅 仅 在 OS X 上 
可 以 使 用 ， 所 以 这 里 不 做 介绍 。 


.MultiChannelMixer: 子 类 型 是 
kAudioUnitSubType_MultiChannelMixer， 该 效果 器 将 是 本 书 重点 介绍 的 
对 象 ， 它 是 多 路 声音 混 音 的 效果 器 ， 可 以 接收 多 路 音频 的 输入 ， 还 可 
以 分 别 调整 每 一 路 音频 的 增益 与 开关 ， 并 将 多 路 音频 合并 成 一 路 ， 该 
效果 器 在 处 理 音频 的 图 状 结构 中 非常 有 用 。 


(3) IO Units 


类 型 是 kAudioUnitType_Output， 它 的 用 途 束 像 其 分 类 的 名 字 一 
样 ， 主 要 提供 的 惑 是 VO 的 功能 。 其 子 类 型 及 用 途 说 明 如 下 。 


.RemoteIO: 子 类 型 是 kAudioUnitSubType_RemoteIO， 从 名 字 上 也 
可 以 看 出 ， 这 是 用 来 采集 首 频 与 播放 首 频 的 ， 其 实 当 开发 者 的 应 用 场 
景 中 要 使 用 麦克风 及 扬 声 絮 的 时 候 会 用 到 该 AudioUnit 。 


.Generic Output: 子 类 型 是 kAudioUnitSubType_GenericOutput， 当 
开发 者 需要 进行 离线 处 理 ， 或 者 说 在 AUGraph 中 不 使 用 Speaker ( 扬 声 
器 ) 来 驱动 整个 数据 流 ， 而 是 希望 使 用 一 个 输出 (可 以 放 入 内 存 队列 
或 者 进行 磁盘 IO 操作 ) 来 驱动 数据 流 时 ， 就 使 用 该 子 类 型 。 


(4) Format Converter Units 


类 型 是 kAudioUnitType_FormatConverter， 主 要 用 于 提供 格式 转换 
的 功能 ， 比 如 : 采样 格式 由 Float 到 SInt16 的 转换 、 交 错 和 平 铺 的 格式 转 
换 、 单 双 声 道 的 转换 等 ， 其 于 类 型 及 用 途 说 明 如 下 。 


.AUConverter: 子 类 型 是 kAudioUnitSubType_AUConverter， 它 将 
是 本 书 要 重点 介绍 的 格式 转换 效果 器 ， 当 某 些 效 果 器 对 输入 的 音频 格 
式 有 明确 的 要 求 时 (比如 3D Mixer Unit 就 必须 使 用 UInt16 格 式 的 
sample) ， 或 者 开发 者 将 音频 数据 输入 给 一 些 其 他 的 编码 器 进行 编码 ， 
又 或 者 开发 者 想 使 用 SInt16 格 式 的 PCM 裸 数据 在 其 他 CPU 上 进行 音频 算 
法 计算 等 的 场景 下 ， 就 需要 使 用 到 这 个 ConverterNode 了。 下面 来 看 一 
个 比较 典型 的 场景 ， 我 们 自 定义 一 个 首 频 播放 器 (代码 仓库 中 的 


AudioPlayer 项 目 ) ， 由 FFmpeg 解 码 出 来 的 PCM 数 据 是 SInt16 格 式 的 ， 
此 不 能 直接 输送 给 RemoteIO Unit 进 行 播放 ， 所 以 需要 构建 一 个 
ConvertNode 将 SInt16 格 式 表示 的 数据 转换 为 Float32 格 式 表 示 的 数据 ， 
然后 再 输送 给 RemoteIO Unit， 最 终 才 能 正常 播放 出 来 。 


Time Pitch: 了 于 类 型 是 kAudioUnitSubType_NewTimePitch， 即 变速 
区 调 效 采 器 ， 这 是 一 个 很 有 意思 的 效 采 右 ， 可 以 对 声音 的 音 高 、 速 度 
进行 调整 ， 像 “会 说 话 的 Tom 猫 ”类 似 的 应 用 场景 束 可 以 使 用 这 个 效果 妖 
来 实现 。 


(5) Generator Units 


类 型 是 kAudioUnitType_Generator， 在 开发 中 我 们 经 常 使 用 它 来 提 
供 播放 器 的 功能 。 其 子 类 型 及 用 途 说 明 如 下 。 


"AudioFilePlayer: 子 类 型 是 kAudioUnitSubType_AudioFilePlayer， 
在 AudioUnit 里 面 ， 如 采 我 们 的 输入 不 是 麦 殉 风 ， 而 硕 望 其 是 一 个 媒体 
文件 ， 当 然 ， 也 可 以 类 似 于 代码 仓库 中 的 AudioPlayer 项 目 目 行 解码 ， 
转换 之 后 将 数据 输送 给 RemoteIO Unit 播 放出 来 ， 但 是 其 实 还 有 一 种 更 
加 简单 、 方 便 的 方式 ， 那 就 是 使 用 AudioFilePlayer 这 个 AudioUnit， 可 
以 参考 代码 仓库 中 的 AUPlayer 项 目 ， 该 项 目 束 是 利用 AudioFilePlayer 作 
为 输入 数据 产 来 提供 数据 的 。 需 要 注意 的 是 ， 必 须 在 初始 化 AUGraph 
之 后 ， 再 去 配置 AudioFilePlayer 的 数据 源 以 及 播放 泡 围 等 属性 ， 否 则 整 
会 出 现 错误 ， 其 实数 据 源 还 是 会 调用 AudioFile 的 解码 功能 ， 将 媒体 文 
件 中 的 压缩 数据 解压 成 为 PCM 宰 数据， 最 终 再 交 给 AudioFilePlayer Unit 
进行 后 续 处 理 。 


5. 构 造 一 个 AUGraph 


实际 的 K 歌 应 用 场景 ， 会 对 用 户 发 出 的 声音 进行 处 理 ， 并 且 立 即 给 
用 户 一 个 耳 返 (在 50ms 之 内 将 声 首 输出 到 耳机 中 ， 让 用 户 可 以 听 
到 ) 。 那 么 如 何 让 RemoteIOUnit 利 用 麦克 风采 集 出 来 的 声音 ， 经 过 中 
疗效 果 需 的 处 理 ， 最 终 和 输出 到 Speaker 中 播放 给 用 户 呢 ? 下 面 束 来 介绍 
一 下 如 何以 AUGraph 的 方式 将 声音 采集 、 声 音 处 理 以 及 声音 输出 的 整 
个 过 程 管理 起 来 。 先 来 看 一 下 图 4-3。 


如 图 4-3 所 示 ， 首 先 要 知道 数据 可 以 在 通道 中 传递 是 由 最 右 端 
Speaker (RemoteIO Unit) 来 驱动 的 ， 它 会 向 其 前 一 级 一 AUNode 要 


数据 ， 然 后 它 的 前 一 级 会 继续 同上 一 级 世 点 要 数据 ， 并 最 终 从 
RemoteIOUnit 的 Element1 ( 即 麦 克 风 ) 中 要 数据 ， 这 样 就 可 以 将 数据 按 
照相 反 的 方 同 一 级 一 级 地 传递 下 去 ， 最 终 传递 到 RemotelOUnit 的 
Element0 〈 即 Speaker) 并 播放 给 用 户 昕 到。 当然 你 可 能 会 想到 离线 处 
理 的 时 候 应 该 由 谁 来 进行 驱动 呢 ? 其 实在 进行 离线 处 理 的 时 候 应 该 使 
用 Mixer Unit 大 类 型 下 面子 类 型 为 Generic Output 的 AudioUnit 来 做 驱动 
端 。 那 么 这 些 AudioUnit 或 者 说 AUNode 是 如 何 进行 连接 的 呢 ? 有 两 种 
方式 ， 第 一 种 方式 是 直接 将 AUNode 连 接 起 来 ， 第 二 种 方式 是 通过 回调 
的 方式 将 两 个 AUNode 连 接 起 来 。 下 面 束 来 分 别 介绍 这 两 种 方式 。 
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(1) 直接 连接 的 方式 


AUGraphConnectNodeInput (mpPlayerGraph, mpPlayerNode, 0, mPlayerIiONode, 0); 


以 上 是 本 市 AUPlayer 实 例 中 的 一 段 代码 ， 目 标 是 将 Audio File 
Player Unit 和 RemoteIO Unit 直 接连 接 起 来 ， 当 RemoteIO Unit 需 要 播放 
数据 的 时 候 ， 就 会 调用 AudioFilePlayer Unit 来 获取 数据 ， 这 样 就 把 这 两 
个 AudioUnit 连 接 起 来 了 。 


(2) 回调 的 方式 


AURenderCal1lbackStruct renderpProc 

renderProc.inputProc = &inputAvailableCallback; 
renderProc.inputProcRefCon = (_ bridge void *)self; 
AUGraphSetNodeInputCcallback(mGraph, ioNode, ©0, &finalRenderProc); 


这 段 代 码 首 先是 构造 一 个 AURenderCallback 的 结构 体 ， 并 指定 一 
个 回调 函数 ， 然 后 设置 给 RemoteIO Unit 的 输入 端 ， 当 RemoteIO Unit 需 
要 数据 输入 的 时 候 就 会 回调 该 回调 函数 ， 回 调 函 数 代 码 如 下 : 


static OSStatus renderCallback(void *inRefCon, AudioUnitRenderActionFlags 
*ioActionFlags, const AudioTimeStamp *inTimeStamp, UINt32 
inBusNumber, UINt32 inNumberFrames, AudioBufferList *ioData) 
{ 
OSStatus result = noErr， 
unsafe_unretained AUGraphRecorder *THIS = (bridge 
AUGraphRecorder *)inRefCon; 
AudioUnitRender (THIS->mixerUnit, ioActionFlags, inTimeStamp, 09, 
inNumberFrames, ioData); 
result = ExtAudioFilewriteAsync(THIS->finalAudioFile, inNumberFrames, 
ioData); 
return result; 


该 回调 函数 主要 完成 两 件 事情 : 第 一 件 事 情 是 去 Mixer Unit 里 面 要 
数据 ， 通 过 调用 AudioUnitRender 的 方式 来 驱动 Mixer Unit 获 取 数 据 ， 得 
到 数据 之 后 放 入 ioData 中 ， 从 而 填充 回调 方法 中 的 参数 ， 将 Mixer Unit 
与 RemoteIO Unit 连 接 了 起 来 ;第 二 件 事 情 则 是 利用 ExtAudioFile 将 这 上段 
声音 编码 并 写 入 本 地 人 磁盘 的 一 个 文件 中 。 


本 节 的 代码 仓库 中 包 售 了 两 个 实例 项 目 ， 一 个 是 AUPlayer， 利 用 
AudioFilePlayer Unit 和 RemoteIO Unit 做 了 一 个 最 简单 的 播放 器 ;另外 一 
个 是 AudioPlayer， 它 会 利用 FFmpeg 进 行 解码 操作 ， 解 码 出 来 的 是 
SInt16 格 式 表 示 的 数据 ， 然 后 再 通过 一 个 ConvertNode 将 其 转换 为 
Float32 格 式 表示 的 数据 ， 最 终 输送 给 RemoteIO Unit 进 行 播 放 。 将 这 两 
个 项 目 对 比 来 看 ， 第 二 种 方式 十 分 不 便 ， 其 实 以 第 二 种 方式 实现 播放 
器 有 两 个 目的 : 其 一 是 为 了 让 大 家 体验 在 开发 .OS 平台 的 程序 时 ， 优 先 
使 用 iOS 平 台 目 寻 提 供 的 API， 了 解 它 们 的 便捷 性 与 重要 性 ， 其 二 是 为 
了 给 后 续 的 视频 播放 怖 项 目 打 下 基础 。 大 家 可 以 好 好 学 习 一 下 这 两 个 
实例 ， 充 分 感受 一 下 iOS 平 台 为 开发 者 提供 了 多 么 强大 的 多 媒体 开发 
API° 


4.2 ” Android 平 台 的 首 频 泻 染 


Android 的 SDK ( 指 的 是 Java 层 提供 的 API， 对 应 的 NDK 是 Native 
层 提供 的 API， 即 C 或 者 C++ 层 可 以 调用 的 API) 提供 了 3 和 套 音 频 播放 的 
API， 分 别 是 : MediaPlayer、SoundPool 和 AudioTrack。 这 三 个 API 的 使 
用 场景 各 不 相同 ， 简 单 来 说 具体 如 下 。 


.MediaPlayer: 适合 在 后 全 长 时 间 播 放 本 地 音乐 文件 或 者 在 线 的 流 
式 媒体 文件 ， 它 的 封装 层次 比较 高 ， 使 用 方式 比较 简单 。 


_'SoundPool， 适 合 播放 比较 短 的 音频 片段 ， 比 如 游戏 声音 、 按 键 
声音 、 铃 声 片段 等 ， 它 可 以 同时 播放 多 个 音频 。 


.AudioTrack: 适合 低 延 迟 的 播放 ， 是 更 加 底层 的 API， 提 供 了 非 
常 强大 的 控制 能 力 ， 适 合流 媒体 的 播放 等 场景 ， 由 于 其 属于 底层 
API， 所 以 需要 结合 解码 器 来 使 用 。 


Android 的 NDK 提 供 了 OpenSL ES 的 C 语 言 的 接口 ， 可 以 提供 非常 
强大 的 音效 处 理 、 低 延 时 播放 等 功能 ， 比 如 在 Android 手 机 上 可 实现 实 
时 耳 返 的 功能 。 本 书 的 项 目 案 例 中 会 更 多 地 使 用 到 底层 API 的 功能 ， 

下 面 就 来 详细 地 介绍 AudioTrack 与 OpenSL ES 这 两 个 API 的 使 用 。 


4.2.1 AudioTrack 的 使 用 


由 于 AudioTrack 是 Android SDK 层 提供 的 最 底层 的 音频 播放 APIL， 
此 只 允许 输入 裸 数 据 。 和 MediaPlayer 相 比 ， 对 于 一 个 压缩 的 音频 文 
件 (比如 MP3、AAC 等 文件 ， 它 需要 自行 实现 解码 操作 和 缓冲 区 控 
制 。 因 为 这 里 只 涉及 AudioTrack 的 音频 渔 染 问 (解码 部 分 已 经 在 前 面 
章 廊 中 介绍 过 了 ， 对 于 缓冲 区 的 控制 机 制 ， 后 续 章 万 将 会 详细 讲 
解 ) ， 所 以 本 节 只 介绍 如 何 使 用 AudioTrack 演 染 音频 PCM 数 据 。 

首先 来 看 一 下 AudioTrack 的 工作 流程 ， 具 体 如 下 。 

1) 根据 音频 参数 信息 ， 配 置 出 一 个 AudioTrack 的 实例 。 

2) 调用 play 方 法 ， 将 AudioTrack 切 换 到 播放 状态 。 

3) 启动 播放 线程 ， 循 环 向 AudioTrack 的 缓冲 区 中 写 入 音频 数据 。 


当 数 据 写 完 或 者 集 止 播放 的 时 候 ， 集 止 播放 线程 ， 并 且 释 放 所 


根据 AudioTrack 的 上 述 工 作 流 程 ， 本 和 将 以 4 个 小 部 分 分 别 介绍 每 
个 流程 的 详细 步骤 。 


1. 配 置 AudioTrack 


先 来 看 一 下 AudioTrack 的 参数 配置 ， 要 想 构 造 出 一 个 AudioTrack 
类 型 的 实例 ， 必 须 先 了 解 其 构造 函数 原型 ， 代 码 如 下 所 示 : 


public AudioTrack(int streamType, int sampleRateInHz, int channelCconfig， 
int audioFormat, int bufferSizeInBytes, int mode); 


其 中 构造 画 数 的 参数 说 明 如 下 。 


streamType，Android 手 机 上 提供 了 多 重音 频 管理 策略 (读者 按 一 
下 手机 侧 边 的 按键 ， 可 以 看 到 有 多 个 音量 管理 ， 这 其 实 束 是 不 同音 频 
策略 的 音量 控制 展示 ) ， 当 系统 有 多 个 进程 需要 播放 音频 的 时 候 ， 管 


理 集 上 略 会 决定 最 终 的 呈现 效果 ， 该 参数 的 可 选 值 将 以 第 量 的 形式 定义 
在 类 AudioManager 中 ， 主 要 包括 以 下 内 容 。 


STREAM_VOCIE_CALL: 电话 声 
STREAM_SYSTEM: 系统 声音 
STREAM_RING: 铃声 
STREAM_MUSCI: 音乐 声 
STREAM_ALARM: 警告 声 
STREAM_NOTIFICATION: 通知 声 


.SampleRateInHz， 采 样 率 ， 即 播放 的 音频 每 秒 钟 会 有 多 少 次 采 
样 ， 可 选用 的 采样 频率 列表 为 : 8000、16000、22050、24000、 
32000、44100、48000 等 ， 大 家 可 以 根据 目 己 的 应 用 场景 进行 合理 的 选 
择 。 


channelConfig， 声 道 数 (通道 数 ) 的 配置 ， 可 选 值 以 常量 的 形式 
配置 在 类 AudioFormat 中 ， 常 用 的 是 CHANNEL _IN_MONO ( 单 声 
道 )、CHANNEL _IN_STEREO ( 双 声 道 ) ， 因 为 现在 大 多 数 手机 的 
麦克 风 都 是 伪 立 体 声 的 采集 ， 为 了 性 能 考虑 ， 笔 者 建议 使 用 单 声 道 进 
行 采 集 ， 而 转变 为 立体 声 的 过 程 可 以 在 声音 的 特效 处 理 阶段 来 完成 。 


.audioFormat， 该 参数 是 用 来 配置 “数据 位 宽 ” 的 ， 即 采样 格式 ， 可 
选 值 以 常量 的 形式 定义 在 类 AudioFormat 中 ， 分 别 为 
ENCODING PCM 16BIT (16bit) 、 ENCODING PCM_ 8BIT 
(8bit) ， 注 意 ， 前 者 是 可 以 兼容 所 有 Android 手 机 的 。 


'bufferSizeInBytes， 其 配置 的 是 AudioTrack 内 部 的 音频 缓冲 区 的 大 
小 ，AudioTrack 类 提供 了 一 个 帮助 开发 者 确定 bufferSizeInBytes 的 函 
数 ， 其 原型 具体 如 下 : 


int getMinBufferSize(int sampleRateInHz, int channelConfig, int audioFormat ) ， 


在 实际 开发 中 ， 强 烈 建议 由 该 函数 计算 出 需要 传 入 的 
bufferSizeInBytes， 而 不 是 目 己 手动 计算 。 


-mode，AudioTrack 提 供 了 两 种 播放 模式 ， 可 选 的 值 以 常量 的 形式 
定义 在 类 AudioTrack 中 ， 一 个 是 MODE_STATIC， 需 要 一 次 性 将 所 有 
的 数据 都 写 入 播放 缓冲 区 中 ， 简 单 高 效 ， 通 常用 于 播放 铃声 、 系 统 提 


醒 的 音频 片段 ， 另 一 个 是 MODE_STREAM， 需 要 按照 一 定 的 时 间 间 隔 
不 间断 地 写 入 音频 数据 ， 理 论 上 它 可 以 应 用 于 任何 音频 播放 的 场景 。 


2. 将 AudioTrack 切 换 到 播放 状态 


首 移 判断 AudioTrack 实 例 是 否 初始 化 成 功 ， 如 果 当 前 状态 处 于 初 
人 
己 Z 下: 


if (null != audioTrack && audioTrack ,getState() != 
AudioTrack,STATE_UNINITIALIZED ) 


audioTrack.play(); 


3. 开 局 播放 线程 
首先 创建 一 个 播放 线程 ， 代 码 如 下 : 


playerThread = new Thread(new PlayerThread(), "playerThread"); 
playerThread. start(); 


接 下 来 看 看 该 线程 中 执行 的 任务 ， 代 码 如 下 : 


class PlayerThread implements Runnable { 
private short[] samples; 
public void run() { 
samples = new Short[minBufferSize]' 
while(!isStop) 区 
int actualSize = decoder.readSamples(samples); 
audioTrack.write(samples, actualSize); 
} 
} 
} 


线程 中 的 minBufferSize 是 在 初始 化 AudioTrack 的 时 候 获 得 的 缓冲 
区 大 小 ， 会 对 其 进行 换算 ， 即 以 2 个 字 市 表示 一 个 采样 的 大 小 ， 也 就 十 
2 倍 的 天 系 (因为 初始 化 的 时 候 是 以 字 市 为 单位 的 ) ; decoder 是 一 个 
解码 器 ， 假 设 已 经 初始 化 成 功 ， 最 后 将 调用 write 方 法 把 从 解码 器 中 获 
得 的 PCM 采 样 数据 写 入 AudioTrack 的 缓冲 区 中 ， 注 意 此 方法 是 阻塞 的 


比如 : 一 般 要 写 入 200ms 的 音频 数据 需要 执行 接近 200ms 的 时 
间 。 


4. 销 毁 资 源 


首先 停止 AudioTrack， 代 码 如 下 : 


if (null != audioTrack && audioTrack ,getState() != 
AudioTrack,STATE_UNINITIALIZED ) 


audioTrack.stop(); 


然后 停止 线程 : 


isStop = true; 

If (null != playerThread) { 
playerThread.join(); 
playerThread = null; 


最 后 释放 AudioTrack: 


audioTrack.release(); 


具体 实例 请 参看 代码 仓库 中 的 AudioPlayer 项 目的 AudioTrack 部 
站 需要 把 了 抽 目 中 resource 目 好 下 的 首 频 文件 放 入 目标 设备 的 sdcard 根 
目 本 oO 


4.2.2 ”OpenSL ES 的 使 用 


OpenSL ES 全 称 为 Open Sound Library for Embedded Systems， 即 内 
入 式 音 频 加 速 标 准 。OpenSL ES 是 无 授权 费 、 跨 平台 、 针 对 舱 入 式 系 统 
精心 优化 的 硬件 首 频 加 速 API。 它 为 和 入 式 移 动 多 媒体 设备 上 的 本 地 应 
用 程序 开发 者 提供 了 标准 化 、 高 性 能 、 低 响应 时 间 的 音频 功能 实现 方 
法 ， 同 时 还 实现 了 软 /硬件 音频 性 能 的 直接 跨 平 台 部 署 ， 不 仅 降 低 了 执 
行 难度 ， 而 且 促 进 了 高 级 音频 市 场 的 发 展 。 


图 4-4 摘 述 了 OpenSL ES 的 架构 ， 在 Android 中 ，High Level Audio 
Libs 是 音频 Java 层 API 输 入 和 输出， 属于 高 级 API， 相 对 来 说 ，OpenSL ES 
则 是 比较 低层 级 的 API， 属 于 C 语 言 API。 在 开发 中 ， 一 般 会 使 用 高 级 
API， 除 非 遇 到 性 能 瓶颈 ， 如 语音 实时 聊天 、3D Audio、 某 些 Effects 
等 ， 开 发 者 可 以 直接 通过 C/C++ 开发 基于 OpenSL ES 音频 的 应 用 。 需 要 
声明 的 是 : 本 书 中 使 用 的 是 OpenSL ES 1.0.1 版 本 ， 这 套 API 是 在 
Android 系 统 版 本 2.3 之 后 才 文 持 的 ， 并 且 有 一 些 高 级 功能 也 会 受到 一 些 
限制 比如 解码 AAC 是 在 Android 系 统 版 本 4.0 以 上 才 支 持 的 。 


O/S, H/W Drivers O/S, H/W Drivers 
: Application A 
Audio HAMNWV CPU Application CPU 
OpenSL ES-H/W implementation OpenSL ES-S/W implementation 
图 4-4 


本 0 ES 的 API 之 前 ， 需 要 引入 OpenSL ES 的 头 文件 ， 代 
马 如 下 : 


#include <SLES/OpenSLES.h> 
#include <SLES/OpenSLES_ Android.h> 


由 于 是 在 Native 层 使 用 该 特性 ， 所 以 要 在 Makefile 文 件 Android.mk 
和 
牵 : 


LOCAL_LDLIBS += -LOpenSLES 


前 文 也 提 到 了 OpenSL ES 提供 的 是 基于 C 语 言 的 API， 但 它 是 基于 
对 象 和 接口 的 方式 提供 的 ， 会 采用 面向 对 象 的 思想 开发 API。 因 此， 这 
里 需要 先 来 了 解 一 下 OpenSL ES 中 对 象 和 接口 的 概念 。 


:对象 :对象 是 对 一 组 资源 及 其 状态 的 抽象 ， 每 个 对 象 都 有 一 个 在 
其 创建 时 指定 的 类 型 ， 类 型 决定 了 对 象 可 以 执行 的 任务 集 ， 对 象 有 点 
类 似 于 C++ 中 类 的 概念 。 


接口: 接口 是 对 象 提 供 的 一 组 特征 的 抽象 ， 这 些 抽 和 象 会 为 开发 者 
和 在 代码 中 ， 接 口 的 类 型 由 接 
口 ID 来 标识 。 


需要 重点 理解 的 是 ， 一 个 对 象 在 代码 中 其 实 是 没有 实际 的 表示 形 
式 的 ， 可 以 通过 接口 来 改变 对 象 的 状态 以 及 使 用 对 象 提供 的 功能 。 对 
象 可 以 有 一 个 或 者 多 个 接口 的 实例 ， 但 是 接口 实例 肯定 只 属于 一 个 对 
象 。 如 果 读 者 读 到 此 处 已 经 完全 理解 了 OpenSL ES 中 对 象 和 接口 的 概 
念 ， 那 么 就 继续 向 下 来 看 看 在 代码 实例 中 是 如 何 使 用 它们 的 。 


上 面 也 提 到 过 ， 对 象 是 没有 实际 的 代码 表示 形式 的 ， 对 象 的 创建 
也 是 通过 接口 来 完成 的 。 通 过 获取 对 象 的 方法 来 获取 出 对 象 ， 进 而 可 
< 问 对 象 的 其 他 接口 方法 或 者 改变 对 象 的 状态 ， 有 具体 的 执行 步 又 如 


1) 创建 一 个 引擎 对 象 接口 。 引 警 对 象 是 OpenSL ES 提供 API 的 唯一 
入 口 ， 开 发 者 需要 调用 全 局 函数 slCreateEngine 来 获取 SLObjectItf 类 型 的 
引擎 对 象 接口 


SLObjectItf engineobject 
SLEngineoption engineOptions[] = { { (SLuint32) SL_ENGINEOPTION_THREADSAFE, 


(SLuint32) SL_BOOLEAN_TRUE } }; 
slCreateEngine(&engineObject, ARRAY_LEN(engineOptions), engineOptions, 0, 0, 0); 


2) 实例 化 引擎 对 象 ， 需 要 通过 在 第 1 步 得 到 的 引擎 对 象 接口 来 实 
例 化 引 警 对象， 否则 会 无 法 使 用 这 个 对 象 ， 其 实在 OpenSL | 
i 任何 对 象 都 需要 使 用 接口 来 进 和 人 了 实例 化 ， 所 以 这 里 也 需要 雪 
一 个 实例 化 对 象 的 方法 ， 代 码 如 下 : 


RealizeObject(engineObject); 
SLresult RealizeObject(SLObjectItf object) { 

return (*object)->Realize(object，SL_BOOLEAN_FALSE ) ， 
}; 


3) 获取 这 个 引擎 对 象 的 方法 接口 ， 通 过 GetInterface 方 法 ， 使 用 第 
2 步 已 经 实例 化 好 了 的 对 象 ， 获 取 对 应 的 型 的 对 象 接 口 ， 
该 接口 将 会 是 开发 者 使 用 所 有 其 他 API 的 入 口 : 


SLEngineItf engineEngine， 
(*engineObject)->GetIinterface(engineObject, SL_IID_ ENGINE, &engineEngine); 


4) 创建 需要 的 对 象 接口 ， 通 过 调用 SLEngineltf 类 型 的 对 象 接 口 的 
CreateXXX 方 法 返回 新 的 对 象 的 接口 ， 比 如 ， 调 用 CreateOutputMix 方 法 
来 获取 一 个 outputMixObject 接 口 ， 或 者 调用 
取 一 个 audioPlayerObject 接 口 。 由 于 篇 幅 有 限 ， 这 里 仅仅 列 出 创建 
| 接口 代码 ， 播 放 句 接口 的 获取 可 以 参考 代码 仓库 中 


SLObjectItf outputMixObject; 
(*engineEngine)->CreateOutputMix(engineEngine, &outputMixObject, 0, ©0, 0); 


5) 实例 化 新 的 对 象 ， 任 何 对 象 接口 获取 出 来 之 后 ， 都 必须 要 实例 
化 ， 与 第 2 步 操作 其 实 古 一 样 的 : 


realizeObject(outputMixObject); 
realizeObject(audioplayerObject); 


6) 对 于 某 些 比较 复杂 的 对 象 ， 需 要 获取 新 的 接口 来 访问 对 象 的 状 
态 或 者 维护 对 象 的 状态 ， 比 如 在 播放 器 AudioPlayer 或 杂 首 器 
AudioRecorder 中 注册 一 些 回调 方法 等 ， 代 码 如 下 : 


SLPlayItf audioPplayerPlay; 

(*audioplayerObject)->GetInterface(audioplayerObject, SL_IID_PLAY, 
&audioplayerPlay); 

// 设置 播放 状态 

(*audioPlayerPlay)->SetPlayState(audioPlayerPlay，SL_PLAYSTATE_PLAYING ) ， 

// 设置 暂停 状态 

(*audioplayerPlay)->SetPlayState(audioplayerPlay, SL_PLAYSTATE_ PAUSED); 


7) 待 使 用 完 该 对 象 之 后 ， 要 记得 调用 Destroy 方 法 来 销毁 对 象 以 及 
相关 的 资源 : 


destroyObject(audioPlayerObject); 
destroyObject(outputMixObject); 
void AudioOutput::destroyObject(SLObjectItf& object) { 
If (© != object) 
(*object)->Destroy(object); 
object = 0; 
下 


使 用 OpenSL ES 实现 一 个 播放 媒体 文件 的 功能 ， 即 一 个 音频 播放 器 
的 渲染 器 逻辑 的 实例 ， 请 读者 查看 代码 仓库 中 的 AudioPlayer 项 目的 
OpenSL ES 部 分 。 注 意 ， 需 要 把 resource 目 孙 下 的 音频 文件 放 入 运行 的 
sdcard 根 目录 下 。 


4.3 ”视频 洽 桨 
4.3.1 OpenGL ES 介绍 


OpenGL (Open Graphics Library) 定义 了 一 个 跨 编 程 语言 、 跨 平 
人 台 编 程 的 专业 图 形 程 序 接口 。 可 用 于 二 维 或 三 维 图 像 的 处 理 与 泻 染 ， 
它 是 一 个 功能 强大 、 调 用 方便 的 的 层 图 形 库 。 对 于 组 入 式 的 设备 ， 其 
提供 了 OpenGL ES (OpenGL for Embedded Systems) 版 本 ， 该 版 本 是 
针对 手机 、Pad 等 艇 入 式 设备 而 设计 的 ， 是 OpenGL 的 一 个 子 集 。 到 目 
前 为 止 ，OpenGL 已 经 经 历 过 很 多 版 本 的 从 代 与 更 新 ， 最 新 版 本 为 
3.0， 而 使 用 最 广泛 的 还 是 OpenGL ES 2.0 版 本 。 本 书 所 讲解 的 案例 就 
是 基于 OpenGL ES 2.0 接 口 进 行 编程 并 实现 图 像 的 处 理 与 泻 染 的 。 本 书 
只 讨论 OpenGL ES 2D 部 分 的 内 容 ， 不 涉及 3D 部 分 的 介绍 ， 因 为 在 视 
频 应 用 这 一 场景 下 ， 绝 大 部 分 都 是 使 用 2D 的 处 理 与 泻 染 ， 所 以 只 需要 
具备 2D 部 分 的 知识 就 可 以 完成 绝 大 部 分 的 工作 了 。 


由 于 OpenGL 是 基于 跨 平 台 的 设计 ， 所 以 在 每 个 平台 上 都 要 有 它 的 
具体 实现 ， 即 要 提供 OpenGL ES 的 上 下 文 环境 以 及 窗口 的 管理 。 在 
OpenGL 的 设计 中 ，OpenGL 是 不 人 负责 管理 窗口 的 ， 窗 口 的 管理 将 交 由 
各 个 设备 目 己 来 完成 ， 上 下 文 环境 也 是 一 样 的 ， 其 在 各 个 平台 上 都 有 
目 己 的 实现 。 具 体 来 讲 ， 在 iOS 平 台 上 使 用 EAGL 提 供 本 地 平台 对 
OpenGL ES 的 实现 ， 在 Android 平 台 上 使 用 EGL 提 供 本 地 平台 对 
OpenGL ES 的 实现 。 所 以 如 果 想 要 OpenGL 程 序 运 行 在 多 个 平台 上 ， 那 
么 也 要 为 每 个 平台 编写 自己 的 上 下 文 环境 的 实现 。 


这 里 需要 介绍 一 下 另外 一 个 库 一 libSDL， 它 可 以 为 开发 者 提供 
面向 libSDL 的 API 编 程 ，libSDL 内 部 会 解决 多 个 平台 的 OpenGL 上下文 
环境 以 及 窗口 管理 问题 ， 开 发 者 只 需要 交叉 编译 这 个 库 到 各 目的 平台 
上 就 可 以 做 到 只 写 一 份 代 码 即 可 运行 到 多 个 平台 。 其 中 FFmpeg 中 的 
ffplay 这 一 工具 束 古 基于 libSDL 进 行 开 发 的 。 但 是 对 于 移动 开发 者 来 
讲 ， 这 样 就 会 失去 一 些 更 加 灵活 的 控制 ， 甚 至 某 些 场景 下 的 功能 不 能 
实现 ， 所 以 本 书 不 会 基于 libSDL， 而 是 基于 每 个 平台 裸 用 自己 平台 的 
API 来 提供 OpenGL ES 的 本 地 实现 。 


上 面 介 绍 了 OpenGL (ES) 是 什么 ， 下 面 再 来 介绍 一 下 OpenGL 

(ES) 能 做 什么 。 其实 从 名 字 上 就 可 以 看 出 来 ，OpenGL 主 要 是 做 图 
形 图 像 处 理 的 库 ， 尤 其 是 在 移动 设备 上 进行 图 形 图 像 处 理 ， 它 的 性 能 
优势 更 能 体现 出 来 。 前文 曾 提 到 过 最 主要 的 是 使 用 OpenGL ES 2.0 版 本 
进行 开发 工作 ， 若 要 使 用 OpenGL ES 2.0 就 不 得 不 提 到 GLSL，GLSL 

(OpenGL Shading Language) 是 OpenGL 的 着 色 器 语言 ， 开 发 人 员 利 
用 这 种 语言 编写 程序 运行 在 GPU (Graphic Processor Unit， 图 形 图 像 处 
理 单元 ， 可 以 理解 为 是 一 种 高 并 发 的 运算 器 ) 上 以 进行 图 像 的 处 理 或 
泻 染 。GLSL 着 色 器 代码 分 为 两 个 部 分 ， 即 Vertex Shader (顶点 着 色 
器 ) 与 Fragment Shader ( 片 元 着 色 器 ) 两 部 分 ， 分 别 完成 各 自在 
OpenGL 泻 染 管线 中 的 功能 ， 具 体 的 语法 与 流程 会 在 4.3.2 节 中 介绍 。 对 
于 OpenGL ES， 业 界 有 一 个 著名 的 开源 库 GPUImage， 它 的 实现 非常 优 
雅 ， 励 其 是 在 iOS 平 台 上 实现 得 非常 完备 ， 不 仅 有 摄像 头 采集 实时 渔 
染 、 视 频 播放 器 、 离 线 保 存 等 功能 ， 更 有 强大 的 滤 镜 实现 。 在 
GPUImage 的 滤 镜 实现 中 ， 可 以 找到 大 部 分 图 形 图 像 处 理 Shader 的 实 
现 ， 包 括 : 亮度 、 对 比 度 、 饮 和 度 、 色 调 曲 线 、 晶 平衡、 灰 度 等 调整 
颜色 的 处 理 ， 以 及 锐 化 、 高 斯 模 业 等 图 像 像素 处 理 的 实现 等 ， 还 有 妹 
描 、 卡 通 效 果 、 浮 雕 效 果 等 视觉 效果 的 实现 ， 最 后 还 有 各 种 混合 模式 
的 实现 等 。 当 然 ， 除 了 GPUImage 提 供 的 这 些 图 像 处 理 的 Shader 之 外， 
开发 者 也 可 以 自己 实现 一 些 有 意思 的 Shader， 比 如 美 颜 滤 镜 效果 、 妆 
脸 效果 以 及 粒子 效果 等 。 


那么 如 何 利 用 OpenGL 来 完成 上 面 所 述 的 工作 呢 ? 请 阅读 4.3.2 节 ， 
我 们 会 在 Android 和 iOS 平 台 上 分 别 实践 如 何 使 用 OpenGL 。 


4.3.2 ” OpenGL ES 的 实践 
1.0penGL 演 染 管线 


要 想 学 习 着 色 侨 ， 并 理解 着 色 器 的 工作 机 制 ， 就 要 对 OpenGL 国 定 
的 泻 染 绾 线 有 深入 的 了 解 。 同 样 ， 先 来 统一 一 下 术语 。 


We 包括 点 、 直线 、 三 角形 ， 均 是 通过 顶点 (vertex) 来 指 
定 的 。 


-模型 : 根据 几何 图 元 创建 的 物体 。 
演 染 : 计算 机 根据 模型 创建 图 像 的 过 程 。 


最 终 演 染 过 程 结 束 之 后 ， 人 有 眼 所 看 到 的 图 像 束 是 由 屏幕 上 的 所 有 
像素 点 组 成 的 ， 在 内 存 中 ， 这 些 像素 点 可 以 组 织 成 一 个 大 的 一 维 数 
组 ， 每 4 个 Byte 即 表示 一 个 像素 点 的 RGBA 数 据 ， 而 在 显卡 中 ， 这 些 像 
素 点 可 以 组 织 成 帧 缓冲 区 (FrameBuffer) 的 形式 ， 帧 缓冲 区 保存 了 图 
形 硬件 为 了 控制 屏幕 上 所 有 像素 的 颜色 和 强度 所 需要 的 全 部 信息 。 理 
解 了 帧 缓冲 区 的 概念 ， 接 下 来 就 来 讨论 一 下 OpenGL 的 演 染 管线 ， 这 部 
分 内 容 对 于 OpenGL 来 说 是 非常 重要 的 。 


那么 OpenGL 的 演 染 管线 具体 是 做 什么 的 呢 ? 其实 就 是 OpenGL3| 
擎 演 染 图 像 的 流程 ， 也 就 是 说 OpenGL3 引 擎 是 一 步 一 步 地 将 图 片 泻 染 到 
屏幕 上 去 的 过 程 。 洽 染 管线 分 为 以 下 几 个 阶段 。 

阶段 一 : 指定 几何 对 象 

所 谓 几 何 对 象 ， 就 是 上 面 说 过 的 几何 图 元 ， 这 里 将 根据 具体 执行 
的 指令 绘制 几何 图 元 。 比 如 ，OpenGL 提 供给 开发 者 的 绘制 方法 
gDrawArrays， 这 个 方法 里 面 的 第 一 个 参数 是 mode， 就 是 制定 绘制 方 
式 ， 可 选 值 有 以 下 几 种 。 


-GL_POINTS: 以 点 的 形式 进行 绘制 ， 通 常用 在 绘制 粒子 效果 的 场 


-于 
太 \ 


-GL_LINES: 以 线 的 形式 进行 绘制 ， 通 常用 在 绘制 直线 的 场景 


-GL_TRIANGLE_STRIP: 以 三 角形 的 形式 进行 绘制 ， 所 有 二 维 图 
像 的 泻 染 都 会 使 用 这 种 方式 。 


具体 选用 哪 一 种 绘制 方式 决定 了 OpenGL 泻 染 管线 的 第 一 阶段 应 如 
何 去 绘 制 几 何 图 元 ， 所 以 这 束 是 第 一 阶段 指定 的 几何 对 象 。 


阶段 二 : 顶点 处 理 


不 论 以 上 的 几何 对 象 是 如 何 指定 的 ， 所 有 的 几何 数据 都 将 会 经 过 
这 个 阶段 。 这 个 阶段 所 做 的 操作 就 是 ， 根 据 模型 视图 和 投影 矩阵 进行 
变换 来 改变 顶点 的 位 置 ， 根 据 纹理 坐标 与 纹理 和 矩阵 来 改变 纹理 坐标 的 
位 置 ， 如 果 涉 及 三 维 的 演 染 ， 那 么 这 里 还 要 处 理光 照 计 算 和 法 线 变 换 
(本 书 不 会 涉及 三 维 的 泻 染 ) 。 这 里 的 输出 是 以 gL_Position 来 表示 具体 
的 顶点 位 置 的 ， 如 果 是 以 点 (GL_POINTS) 来 绘制 几何 图 元 ， 那 么 还 
应 该 输出 gL_PointSize 。 


阶段 三 : 图 元 组 凑 


在 经 过 阶段 二 的 顶点 处 理 操作 之 后 ， 不 论 是 模型 的 顶点 ， 还 是 纹 
理 坐 标 都 是 已 经 确定 好 了 的 。 在 这 个 阶段 ， 顶 点 将 会 根据 应 用 程序 送 
往 图 元 的 规则 (如 GL_POINTS、GL_TRIANGLES 等 ) ， 将 纹理 组 装 成 
图 元 。 


阶段 四 : 栅 格 化 操作 


由 阶段 三 传递 过 来 的 图 元 数据 ， 在 此 将 会 被 分 解 成 更 小 的 单元 并 
对 应 于 帆 缓 冲 区 的 各 个 像 尿 。 这 些 单元 称 为 片 元 ， 一 个 片 元 可 能 包含 
窗口 颜色 、 纹 理 坐 标 等 属性 。 片 元 的 属性 是 根据 顶点 坐标 利用 插值 来 
确定 的 ， 这 其 实 束 是 栅 格 化 操作 ， 也 融 是 确定 好 每 一 个 片 元 是 什么 。 


阶段 五 ， 片 元 处 理 


通过 纹理 坐标 取得 纹理 (texture) 中 相对 应 的 片 元 像素 值 
(texel) ， 根 据 自 己 的 业务 处 理 《比如 提 亮 、 饱 和 度 调 节 、 对 比 度 调 
忆 、 高 斯 模糊 等 ) 来 变换 这 个 片 元 的 颜色 。 这 里 的 输出 是 
glL_FragColor， 用 于 表示 修改 之 后 的 像素 的 最 终结 果 。 


阶段 六 : 帧 缓冲 操作 


该 阶段 主要 执行 帧 缓冲 的 写 入 操作 ， 这 也 是 温 染 管线 的 最 后 一 
步 ， 负 责 将 最 终 的 像素 值 写 到 帧 缓冲 区 中 。 


前 面 也 提 到 过 ，OpenGL ES 2.0 版 本 与 之 前 的 版 本 相 比 ， 更 出 色 的 
功能 就 是 提供 了 可 编程 的 着 色 器 来 代替 OpenGL ES 中 演 染 管线 的 某 一 
阶段 。 那 么 具体 是 哪 一 个 着 色 器 ， 又 可 以 赫 换 演 染 管线 的 哪 一 个 阶段 
呢 ? 具体 如 下 所 示 。 


.Vertex Shader (顶点 着 色 器 ) 用 来 替换 顶点 处 理 阶段 。 


:Fragment Shader ( 片 元 着 色 器 ， 又 称 像素 着 色 器 ) 用 来 替换 片 元 
处 理 阶段 。 


glFinish 和 glFlush 


是 交 给 OpenGL 的 绘图 指令 并 不 会 马上 发 送 给 图 形 硬 件 执行 ， 而 是 
放 到 一 个 缓冲 区 里 面 ， 等 待 缓冲 区 满 了 之 后 再 将 这 些 指令 发 送 给 图 形 
硬件 执行 ， 所 以 指令 较 少 或 较 简 单 时 是 无 法 填 满 缓冲 区 的 ， 这 些 指 令 
自然 不 能 马上 执行 以 达到 所 需要 的 效果 。 因 此 每 次 写 完 绘图 代码 ， 需 
要 让 其 立即 完成 效果 时 ， 开 发 者 都 需要 在 代码 后 面 添加 glFlush () 或 
Finish () 郴 数 。 


-glFlush () 的 作用 是 将 缓冲 区 中 的 指令 〈 无 论 是 否 为 满 ) 立刻 发 
送 给 图 形 硬件 执行 ， 发 送 完 立即 返回 。 


:glFinish () 的 作用 也 是 将 缓冲 区 中 的 指令 〈 无 论 是 否 为 满 ) 立刻 
发 送 给 图 形 硬 件 执行 ， 但 是 要 等 待 图 形 硬 件 执行 完成 之 后 才 返 回 这 上 
目 人 > “。 

在 下 面 讲解 GLSL 语 法 以 及 内 般 函 数 时 将 会 学 习 到 具体 如 何 实现 顶 
点 着 色 器 和 片 元 着 色 器 ， 并 且 还 会 实现 如 何 写 出 一 组 着 色 器 (包括 顶 
点 着 色 需 与 片 元 着 色 器 ) 为 图 片 增加 对 比 度 的 功能 。 


2.GLSL 语 法 与 内 建 函 数 


本 市 的 目标 是 实现 一 组 着 色 器 来 完成 增强 对 比 度 的 功能 ， 但 是 还 
不 能 直接 看 到 这 组 着 色 强 的 效果 ， 因 为 着 色 器 需要 运行 到 显卡 中 ， 要 


0 所 以 先 不 要 着 急 ， 我 们 慢 慢 


前 面 已 经 粗略 介绍 过 GLSL 是 什么 了 ,但 是 一 直 没 有 为 它 下 过 准确 
的 定义 ， 束 是 担心 读者 看 到 它 的 定义 之 后 ， 沉 得 不 可 理解 ， 现 在 ， 我 
们 已 经 了 解 了 演 染 管线 ， 应 该 也 已 经 充分 理解 了 着 色 器 到 底 是 做 什么 
用 的 了 ，GLSL 全 称 为 OpenGL Shading Language， 是 为 了 实现 着 色 器 的 
人 对 其 只 要 能 理解 到 这 个 层次 
束 相 以 1 了。 


(1) GLSL 的 修饰 符 与 基本 数据 类 型 


具体 来 说 ，GLSL 的 语法 与 C 语 言 非常 类 似 ， 学 习 一 门 语言 ， 首 和 爷 
要 看 它 的 数据 类 型 表示 ， 人 然后 再 学 习 具 体 的 运行 流程 。 对 于 GLSL， 其 
数据 类 型 表示 具体 如 下 。 


首 和 多 是 修 饥 符 ， 上 具体 如 下 : 


:const: 用 于 声明 非 可 写 的 编译 时 第 量 要 量 。 


-attribute: 用 于 经 常 更 改 的 信息 ， 只 能 在 顶点 着 色 器 中 使 用 。 


-varying: 用 于 修饰 从 顶点 着 色 器 向 片 元 着 色 器 传递 的 变量 。 


然后 是 基本 数据 类 型 ，int、float、bool， 这 些 与 C 语 言 都 是 一 致 
的 ， 需要 强调 的 一 点 就 是 ， 这 里 面 的 float 是 有 一 个 修饰 符 的 ， 即 可 以 指 
， 三 种 修饰 符 的 范围 (范围 一 般 视 显卡 而 定 ) 和 应 用 情况 具体 
0 下 。 


:highp: 32bit， 一 般 用 于 顶点 坐标 (vertex Coordinate) 
medium: 16bit， 一 般 用 于 纹理 坐标 (texture Coordinate) 。 


Jowp: 8bit， 一 般 用 于 颜色 表示 (color) 


接 下 来 是 回 量 类 型 ， 回 量 类 型 是 Shader 中 非常 重要 的 一 个 数据 类 
型 ， 因 为 在 做 数据 传递 的 时 候 需 要 经 常 传递 多 个 参数 ， 相 较 于 写 多 个 
基本 数据 类 型 ， 使 用 疝 量 类 型 吓 非 常 好 的 选择 。 列 举 一 个 最 经 典 的 例 
子 ， 要 将 物体 坐标 和 纹理 坐标 传递 到 Vertex Shader 中 ， 用 的 就 是 癌 量 类 
型 ， 每 一 个 顶点 都 是 一 个 四 维 辐 量 ， 在 Vertex Shader 中 利用 这 两 个 四 维 
昌 可 完成 自己 的 纹理 坐标 映射 操作 。 声 明 方 式 如 下 (GLSL 代 


attribute vec4 position,; 


之 后 是 矩阵 类 型 ， 和 矩阵 类 型 在 Shader 的 语法 中 也 是 一 个 非常 重要 的 
类 型 ， 有 一 些 效 果 器 需要 开发 者 传 入 算 阵 类 型 的 数据 ， 比 如 后 面 会 接 
触 到 的 怀旧 效果 器 ， 就 需要 传 入 一 个 矩阵 来 改变 原始 的 像素 数据 。 声 
明 方 式 如 下 (GLSL 代 码 ) : 


uniform lowp mat4 colorMatrix; 


上 面 的 代码 表示 了 一 个 4x4 的 浮 点 窍 阵 ， 如 采 是 mat2 融 是 2x2 的 译 
点 搜 孟 ， 如 和 是 mat3 束 是 3x3 的 浮 点 窃 阵 。 知 要 传递 一 个 窍 阵 到 实际 的 
Shader 中 ， 则 可 以 直接 调用 如 下 画 数 (客户 端 代码 ) : 


glUniformMatrix4fv(mCcolorMatrIxLocation，1，Tfalse，mCcolorMatrix)， 


紧 接 着 是 纹理 类 型 ， 本 章 的 最 后 一 节 (4.3.4 节 ) 将 会 介绍 应 该 如 
何 加 载 以 及 泻 染 纹理 ， 但 是 这 里 要 讲解 的 是 如 何 声 明 这 个 类 型 ， 一 般 
Co Shader 中 使 用 这 个 类 型 ， 二 维 纹理 的 声明 方式 如 下 

GLSL 代 码 ) : 


uniform sampler2D texSampler; 


当 客户 端 接 收 到 这 个 句柄 时 ， 束 可 以 为 它 绑 定 一 个 纹理 ， 代 码 如 
下 《客户 端 代码 ) : 


glLActiveTexture(GL_TEXTUREO ) ， 
glBindTexture(GL_TEXTURE_2D, texId); 


glUniform1l1i(mGLUniformTexture，0)， 


注意 上 述 代 码 中 第 一 行 激活 的 是 哪 一 个 纹理 句柄 ， 第 三 行 代 码 中 
的 第 二 个 参数 需要 传递 对 应 的 Index， 就 像 代 码 中 激活 的 纹理 句柄 是 
GL_TEXTURE0， 对 应 的 Index 就 是 0， 如 果 激 活 的 纹理 句柄 是 
GL_TEXTURE1， 那 么 对 应 的 Index 束 是 1， 在 不 同 的 平台 上 句柄 的 个 数 
也 不 一 样 ， 但 是 一 般 都 会 在 32 个 以 上 。 


最 后 米 看 一 下 比较 特殊 的 传递 类 型 ， 在 GLSL 中 有 一 个 特殊 的 修饰 
从 就 是 varying， 这 个 修饰 从 修饰 的 变量 均 用 于 在 Vertex Shader 和 
Fragment Shader 之 间 传 递 参 数 。 首 先 在 顶点 着 色 器 中 声明 这 个 类 型 的 变 
量 代 表 纹 理 的 坐标 点 ， 并 且 对 这 个 变量 进行 赋值 ， 代 码 如 下 : 


attribute vec2 texcoord 
Varying vec2 v_texcoord; 
void main(void) 


// 计算 顶点 坐标 
V_texcoord = texcoord; 


} 


紧 接 着 在 Fragment Shader 中 也 声明 同名 的 变量 ， 然 后 使 用 texture2D 
人 
人 码 ) : 


varying vec2 v_texcoord; 
vec4 texel = texture2D(texSampler, v_texcoord); 


取出 了 该 坐标 总 上 的 像素 值 之 后 ， 束 可 以 进行 像素 变化 操作 了 ， 
比如 说 提高 对 比 度 ， 最 终 将 改变 的 像素 值 赋值 给 gL_FragColor 。 


(2) GLSL 的 内 置 画 数 与 内 置 变量 
首先 来 看 内 置 变 量 ， 最 常见 的 是 两 个 Shader 的 输出 变量 。 
先 来 看 Vertex Shader 的 内 置 变 量 (GLSL 代 码 ) : 


vec4 gl_position; 


上 壕 代 码 用 来 设置 顶点 转换 到 屏幕 坐标 的 位 置 ，Vertex Shader 一 定 
0 男 外 还 有 一 个 内 置 变量 ， 代 码 如 下 (GLSL 代 


float gl_ pointSize,; 


在 粒子 效果 的 场景 下 ， 需 要 为 粒子 设置 大 小 ， 改 变 该 内 置 变量 的 
值 就 是 为 了 设置 每 一 个 粒子 滤 形 的 大 小 。 


其 次 是 Fragment Shader 的 内 置 变量 ， 代 码 如 下 (GLSL 代 码 ) : 


vec4 gl_FragColor; 


上 述 代 码 用 于 指定 当前 纹理 坐标 所 代表 的 像 隶 点 的 最 终 颜 色 值 。 


然后 是 内 置 画 数 ， 具 体 的 函数 可 以 去 官方 文档 中 查询 ， 这 里 仅 介 
绍 几 个 第 用 的 函数 。 


:abs (genType x) : 绝对 值 函数 。 
floor (genType x) : 向 下 取 整 画 数 。 


cei] (genType x) : 向 上 取 整 函数 。 


.mod (genType x，genType y) : 取 模 函数 。 


区 


Ro 
Ro 


:clamp (genType x，genType y，genType z) : 取得 中 间 值 画 数 。 


:min (genType x，genType y) : 取得 最 小 值 E 


区 


:max (genType x，genType y) : 取得 最 大 值 E 


:step (genType edge，genType x) : 如 果 x<edge， 则 返回 0.0， 否 则 
返回 1.0。 


smoothstep (genType edge0，genType edgel，genType x) : 如 果 
x<edge0， 则 返回 0.0;， 如 果 x>edgel1， 则 返回 1.0; 如 果 edge0<x<edgel， 


则 执行 0 一 1 之 间 的 乎 请 震 值 。 


:mix (genType x，genType y，genType a) : 返回 线性 混合 的 x 和 
y， 用 公式 表示 为 : xx (1-a) +y*a， 这 个 函数 在 mix 两 个 纹理 图 像 的 时 
候 非 常 有 用 。 


其 他 的 角度 函数 、 指 数 函 数 、 几 何 函 数 在 这 里 就 不 再 警 述 了 ， 大 
家 可 以 去 官方 文档 进行 查询 。 对 于 一 个 语言 的 语法 来 讲 ， 剩 下 的 就 是 
控制 流 部 分 了 ， 而 GLSEL 的 控制 流 与 C 语 言 非常 类 似 ， 既 可 以 使 用 for、 
while 以 及 do-while 实 现 循环 ， 也 可 以 使 用 if 和 if-else 进 行 条 件 分 支 的 操 
作 ， 在 后 面 的 实践 过 程 中 及 GLSL 代 码 中 都 会 用 到 这 些 控 制 流 ， 在 这 里 
将 不 再 讲解 这 些 枯燥 的 语法 。 


至 此 ，GLSL 的 语法 部 分 已 经 讲解 得 差不多 了 ， 华 葛 本 市 所 写 的 程 
序 (Shader) 都 是 运行 在 GPU 上 的 ， 那 么 在 CPU 上 运行 的 程序 (应 用 程 
序 ) 应 该 如 何 将 这 一 组 Shader 交 给 OpenGL ES 的 泻 染 管线 呢 ? 下 面 就 来 
介绍 如 何在 应 用 程序 中 使 用 Shader。 


3. 创 建 显卡 执行 程序 


前 面 已 经 学 习 了 GLSL 的 语法 以 及 内 般 函 数 ， 并 且 也 已 经 完成 了 一 
组 Shader 的 实例 ， 那 么 ， 如 何 让 显卡 来 运行 这 一 组 Shader 呢 ? 或 者 说 如 
何 用 Shader 来 蔡 换 反 OpenGL 演 染 管线 中 的 那 两 个 阶段 呢 ? 下 面 就 来 学 
习 一 下 如 何 将 Shader 传 递 给 OpenGEL 的 泻 染 管线 。 移 来 看 一 下 图 4-5， 该 
图 描述 了 如 何 创 建 一 个 显卡 的 可 执行 程序 ， 后 文中 将 其 统称 大 
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下 面 就 按照 图 4-5 逐 一 解释 一 下 如 何 创建 该 Program。 站 先 来 看 图 4- 
5 的 右 半 部 分 ， 即 创建 shader 的 过 程 ， 第 一 步 是 调用 glCreateShader 方 法 
创建 一 个 对 象 ， 作 为 shader 的 容器 ， 该 函数 会 返回 一 个 容器 的 句柄 ， 男 
数 的 原型 如 下 : 


GLuint glCreateShader(GLenum shaderType); 


函数 原型 中 的 参数 shaderType 有 两 种 类 型 ， 当 要 创建 VertexShader 
时 ， 开 发 者 应 该 传 入 类 型 GL_ VERTEX_SHADER; 当 要 创建 
FragmentShader 时 ， 开 发 者 应 该 传 入 GL_FRAGMENT_SHADER 类 型 。 
下 一 步 就 是 为 创建 的 这 个 shader 添 加 源 代 码 ， 即 图 4-5 中 最 右边 的 这 两 


个 Shader Content， 它们 束 是 前 面 讲解 过 的 根据 GLSL 语 法 和 内 共 函 数 编 
写 的 两 个 着 色 器 程序 (Shader) ， 其 为 字符 串 类 型 。 函 数 原型 如 下 : 


void glShaderSource(GLuint shader, int numOofStrings, const char **strings, int 
*lenofStrings) 


上 述 函 数 的 作用 就 是 把 开发 者 编写 的 着 色 吉 程序 加 载 到 着 色 顺 名 
和 最 后 一 步 就 是 编译 该 Shader， 编 译 Shader 的 函数 原 
型 如 下 : 


void glCcompileShader(GLuint shader); 


待 编 译 完成 之 后 ， 还 需要 验证 该 Shader 是 否 编译 成 功 了 。 那 么 ， 应 
该 如 何 验 证 呢 ? 使 用 下 面 的 范 数 即 可 进行 验证 : 


void glGetShaderiv (GLuint shader, GLenum pname, GLint* params); 


其 中 第 一 个 参数 就 是 需要 验证 的 Shader 句 柄 ; 第 二 个 参数 是 需要 验 
证 的 Shader 的 状态 值 ， 这 里 一 般 是 验证 编译 是 否 成 功 ， 该 状态 值 一 般 是 
选取 GL COMPILE STATUS; 第 三 个 参数 是 返回 值 。 当 返回 值 为 1 时 ， 
则 说 明 该 Shader 是 编译 成 功 的 ， 如 果 为 0， 则 说 明 该 Shader 没 有 被 编译 
成 功 ， 如 果 编 译 没有 成 功 ， 那 么 开发 者 肯定 需要 知道 到 底 是 着 色 器 代 
码 中 的 哪 一 行 出 了 问题 ， 所 以 还 需要 调用 上 面 的 函数 ， 只 不 过 此 时 获 
取 的 是 该 Shader 的 另外 一 个 状态 ， 该 状态 值 应 该 选取 
GL_INFO_ LOG_LENGTH， 返 回 值 返 回 的 则 是 销 误 原 因 字 符 串 的 长 
度 ， 我 们 可 以 利用 这 个 长 度 分 配 出 一 个 buffer， 然 后 调用 获取 Shader 的 
InfoLog 范 数 ， 函 数 原 型 如 下 : 


void glGetShaderInfoLog(GLuint object, int maxLen, int *len, char *10g); 


之 后 可 以 把 mfoLog 打 印 出 来 ， 以 帮助 我 们 调试 实际 Shader 中 的 错 
误 。 按 照 上 面 的 步骤 可 以 创建 出 Vertex Shader 和 Fragment Shader。 接 下 
来 再 来 看 图 4-5 的 左 半 部 分 ， 即 如 何 通过 这 两 个 Shader 来 创建 Program 
(显卡 可 执行 程序 ) 。 


首先 创建 一 个 对 象 ， 作 为 程序 的 容 句 ， 此 函数 将 返回 容器 的 名 
桶 。 函 数 原型 如 下 : 


GLuint glCreateProgram(void); 


下 而 将 把 前 文 编译 的 Shader 内 加 到 刚刚 创建 的 程序 中 ， 调 用 的 本 
名 称 如 下 : 


void glAttachShader(GLuint program, GLuint shader); 


第 一 个 参数 就 是 传 入 上 一 步 返回 的 程序 容器 的 句柄 ， 第 二 个 参数 
束 是 编译 的 Shader 容 磺 的 句柄 ， 当 然 要 为 每 一 个 Shader 都 调用 一 次 这 个 
方法 才能 把 两 个 Shader 都 关联 到 Program 中 去 。 最 后 一 步 就 是 链接 程 
序 ， 链 接 画 数 原型 如 下 : 


void glLinkProgram(GLuint program); 


传 入 参数 束 是 程序 容器 的 句柄 ， 那 么 这 个 程序 到 底 有 没有 链接 成 
功 呢 ? OpenGL 提 供 了 一 个 函数 来 检查 该 程序 的 状态 ， 函 数 原型 如 下 : 


glGetProgramiv (GLuint program, GLenum pname, GLint* params ) ， 


第 一 个 参数 就 是 传 入 程序 容器 的 句柄 ， 第 二 个 参数 代表 需要 检查 
该 程序 的 哪 一 个 状态 ， 这 里 传 入 的 是 GL_LINK_STATUS， 最 后 一 个 参 
数 就 是 返回 值 。 返 回 值 为 1 则 代表 链接 成 功 ， 如 果 返 回 值 为 0 则 代表 链 
接 失 败 ， 类 似 于 编译 Shader 的 操作 ， 如 果 链 接 失 败 了 ， 也 可 以 获取 错误 
言 乱 ， 以 便 修 改 程序 。 如 果 想 获取 具体 的 错误 信息 ， 应 该 调用 下 属 画 
数 ， 但 是 第 二 个 参数 传递 的 是 GL_INFO_LOG _LENGTH， 代 表 获 取 该 
程序 的 InfoLog 的 长 度 ， 获 取 到 长 度 之 后 我 们 分 配 出 一 个 char* 的 内 存 空 
间 以 获取 InfoLog， 函 数 原 型 如 下 : 


void glGetProgramInfoLog(GLuint object, int maxLen, int *]len, char *1lo0g); 


调用 该 函数 返回 InfoLog 之 后 可 以 将 其 打印 出 来 ， 以 便于 后 续 修 改 
程序 。 至 此 就 可 以 创建 一 个 Program (显卡 可 执行 程序 了， 回顾 一 下 
整个 过 程 ， 其 实 有 点 类 似 于 C 语 言 的 编译 和 链接 阶段 ， 而 构造 OpenGL 
Program 也 是 一 样 的 ， 在 构造 Shader 的 过 程 中 需要 编译 Shader， 然 后 将 
两 个 Shader 关 联 到 具体 的 Program 之 后 还 需要 链接 该 Program。 接 下 来 就 
是 如 何 使 用 该 程序 ， 使 用 这 个 构建 出 来 的 程序 也 很 简单 ， 调 用 
UseProgram 方 法 就 可 以 了 。 人 至 此 本 节 要 介绍 的 内 容 已 基本 介绍 完毕 ， 
但 是 要 想 完 全 运行 到 手机 上 ， 还 需要 为 OpenGL ES 的 运行 提供 一 个 上 
i 下 面 束 来 学 习 在 两 个 平台 上 如 何 为 OpenGL ES 提供 上 下 文 
环境 。 


4.3.3 上下文 环境 搭建 


束 像 前 面 提 到 的 ，OpenGL 不 负责 窗口 管理 及 上 下 文 环境 管理 ， 该 

只 责 将 由 各 个 平台 或 者 设备 自行 完成 。 为 了 在 OpenGL 的 输出 与 设备 的 
屏幕 之 间架 接 起 一 个 桥梁 ，Khronos 创 建 了 EGL 的 API，EGL 是 双 缓 冲 
的 工作 模式 ， 即 有 一 个 Back Frame Buffer 和 一 个 Front Frame Buffer， 正 
芝 绘 制 操 作 的 目标 都 是 Back Frame Buffer， 操 作 完 毕 之 后 ， 调 用 
eglSwapBuffer 这 个 API， 将 绘制 完毕 的 FrameBuffer 交 换 到 Front Frame 
Buffer 并 显示 出 来 。 而 在 Android 平 台 上 ， 使 用 的 是 EGL 这 一 套 机 制 ， 
EGL 承 担 了 为 OpenGL 提 供 上 下 文 环境 以 及 窗口 管理 的 职责 。iOS 乎 人 台 
为 OpenGL 提 供 的 实现 则 是 EAGL 〈 可 以 按照 Eagle 来 发 音 ) ， 比 较 重 要 
的 是 ，iOS 平 台 不 允许 直接 泻 染 到 屏幕 上 ， 因 此 要 使 用 renderBuffer 来 
代替 。 对 于 这 两 个 平台 的 实现 下 面 将 分 别 给 出 详细 的 代码 以 及 解释 。 


1.Android 下 的 环境 搭建 


要 在 Android 平 台 上 使 用 OpenGL ES， 第 一 种 方式 是 直接 使 用 
GLSurfaceView， 通 过 这 种 方式 使 用 OpenGL ES 比较 简单 ， 因 为 不 需要 
开发 者 搭建 OpenGL ES 的 上 下 文 环 境 ， 以 及 创建 OpenGL ES 的 显示 设 
备 。 但 是 凡事 都 有 两 面 ， 有 好 处 也 束 有 坏处 ， 使 用 GLSurfaceView 不 够 
灵活 ， 很 多 真正 的 OpenGL ES 的 核心 用 法 (比如 共享 上 下 文 来 达到 多 
线程 共同 操作 一 份 纹理 ) 都 不 能 直接 使 用 。 所 以 本 书 的 OpenGL ES 上 
下 文 环 境 ， 都 是 直接 使 用 EGL 的 API 来 搭建 的 ， 并 且 是 基于 C++ 的 环境 
搭建 的 。 因 为 如 果 仅 仅 在 Java 层 编写 ， 那 么 对 于 普通 的 应 用 也 许可 
行 ， 但 是 对 于 要 进行 解码 或 使 用 第 三 方 库 的 场景 〈 比 如 人 脸 识 别 ) ， 
则 需要 到 C++ 层 来 实施 。 出 于 效率 和 性 能 的 考虑 ， 这 里 的 架构 将 直接 
使 用 Native 层 的 EGL 搭 建 一 个 OpenGL ES 的 开发 环境 。 要 想 在 Native 层 
使 用 EGL， 那 么 就 必须 要 在 Makefile 文 件 (Android.mk) 中 加 入 EGL 
库 ， 并 在 使 用 该 库 的 C++ 文件 中 引入 对 应 的 头 文件 。 


需要 包含 的 头 文件 : 


#include <EGL/egl.h> 
#include <EGL/eglext.h> 


需要 引入 的 so 库 : 


LOCAL_LDLIBS += -]EGL 


这 样 就 可 以 在 Android 的 C++ 开发 中 使 用 EGL 了， 不 过 要 想 使 用 
OpenGL ES， 还 需要 引入 OpenGL ES 对 应 的 头 文件 与 库 。 


需要 包含 的 头 文件 : 


#include <GLES2/g12.h> 
#include <GLES2/gl2ext.h> 


需要 引入 的 so 库 ， 注 意 这 里 使 用 的 是 OpenGL ES 的 2.0 版 本 : 


LOCAL_LDLIBS += -1lGLESvVv2 


至 此 ， 对 于 OpenGL 的 开发 需要 用 到 的 头 文 件 以 及 库 文件 束 引 入 完 
毕 了 ， 下 面 再 来 看 一 下 如 何 使 用 EGL 搭 建 出 OpenGL 的 上 下 文 环境 以 及 
演 染 的 目标 屏幕 。 


首先 EGL 需 要 知道 绘制 内 容 的 目标 在 哪里 ，EGLDisplay 是 一 个 起 
装 系 统 物理 屏幕 的 数据 类 型 (可 以 理解 为 绘制 目标 的 一 个 抽象 ) ， 通 
常会 调用 eglGetDisplay 方 法 返回 EGLDisplay 来 作为 OpenGL ES 渲染 的 
目标 。 在 调用 该 方法 的 时 候 ， 常 量 EGL_DEFAULT_DISPLAY 会 被 传 进 
该 方法 中 ， 每 个 厂商 通常 都 会 返回 默认 的 显示 设备 ， 代 码 如 下 : 


if ((display = eglGetDisplay(EGL_DEFAULT_DISPLAY)) == EGL_NO_DISPLAY) { 
LOGE("eglGetDisplay() returned error %d", eglGetError()); 
return false,; 


} 


然后 调用 eglInitialize 来 初始 化 这 个 显示 设备 ， 该 方法 会 返回 一 个 
布尔 型 变量 来 代表 执行 状态 ， 后 面 两 个 参数 则 代表 Major 和 Minor 的 版 
本 ， 比 如 EGL 的 版 本 号 是 1.0， 那 么 Major 将 返回 1，Minor 则 返回 0。 如 
果 不 关 心 版 本 号 ， 则 可 都 传 入 0 或 者 NULL， 代 码 如 下 : 


If (!eglIinitialize(display, ©0, 0)) { 
LOGE("eglInitialize() returned error %d", eglGetError()); 
return false,; 


} 


接 下 来 就 需要 准备 配置 选项 了 了， 一 旦 EGL 有 了 Display 之 后 ， 它 束 
可 以 将 OpenGL ES 的 输出 和 设备 的 屏幕 桥接 起 来 ， 但 是 需要 指定 一 些 
配置 项 ， 类 似 于 色彩 格式 、 像 素 格式 、 RGBA 的 表示 以 及 SurfaceType 
等 ， 不 同 的 系统 以 及 平台 使 用 的 EGL 标 准 是 不 同 的 ，Android 平 台 下 的 
配置 代码 如 下 所 示 : 


const EGLint attribs[] = {EGL_BUFFER_SIZE, 32, 
EGL_ALPHA_SIZE, 8, 
EGL_BLUE_SIZE, 8, 
EGL_GREEN_ SIZE, 8, 
EGL_RED_SIZE, 8, 
EGL_RENDERABLE_TYPE, EGL_OPENGL_ES2_BIT， 
EGL_SURFACE_TYPE, EGL_ WINDOW_BIT, 
EGL_NONE }; 
If (!eglChooseConfig(display, attribs, &config, 1, &numConfigs)) { 
LOGE("eglChooseConfig() returned error %d", eglGetError()); 
return false,; 


} 


终 可 通过 调用 eglChooseConfig 方 法 得 到 配置 选项 信息 ， 接 下 来 
束 需 0 ` 境 EGLContext 了 ， 这 里 需要 用 到 
之 前 介 绍 过 的 EGLDisplay 和 EGLConfig， 因为 任何 一 条 OpenGL 指 令 都 
必须 在 自己 的 OpenGL 上 下 文 环境 中 运行 ， 所 以 可 以 按照 如 下 代码 构建 
和 上 下 文 环境 : 


EGLint attributes[] = { EGL CONTEXT_CLIENT_ VERSION, 2, EGL_NONE }; 
If (!(context = eglCreateContext(display, config, NULL, 
eglCcontextAttributes))) { 
LOGE("eglCreateContext() returned error %d", eglGetError()); 
return false,; 


} 


函数 eglCreateContext 的 第 三 个 参数 可 以 由 开发 者 传 入 一 个 
EGLComex 关 型 的 空 量 该 变量 的 意义 是 指 可 以 与 正在 创建 的 上 下 文 
环境 共享 OpenGL 资 包括 纹理 ID、FrameBuffer 以 及 其 他 的 Buffer 资 
源 。 袜 时 全 和 并 NUIL 代表 不 需要 与 其 他 的 OpenGL ES 上 下 文 
共 孚 任何 质 源 ， 后 文 介绍 的 项 目 中 在 一 些 条 件 下 其 实 是 需要 共享 上 下 
文 的， 这 点 将 在 后 面 进行 讨论 。 


通过 上 面 这 三 步 创 建 OpenGL 的 上 下 文 之 后 ， 说 明 EGL 和 OpenGL 
ES 端的 环境 已 经 搭建 完毕 ， 即 OpenGL ES 的 输出 已 经 可 以 获取 到 了 ， 
那么 应 该 如 何 将 该 输出 泻 染 到 设备 的 屏 人 幕 上 呢 ? 应 该 将 EGL 和 设备 的 
屏幕 连接 起 来 ， 只 有 这 样 EGL 才 是 一 个 “ 桥 ” 的 功能 ， 从 而 使 得 OpenGL 
ES 的 输出 可 以 演 桨 到 设备 的 屏幕 上 上。 那么 如 何 将 EGL 和 设备 的 屏幕 连 
接 起 来 呢 ? 答案 是 使 用 EGLSurface，Surface 实 际 上 是 一 个 
FrameBuffer， 通 过 EGL 库 提供 的 eglCreateWindowSurface 可 以 创建 一 个 
可 实际 显示 的 Surface， 通 过 EGL 库 提供 的 eglCreatePbufferSuface 可 以 创 
建 一 个 OffSscreean 的 Surface， 当 然 Surface 也 有 很 多 属性 ， 其 中 最 基础 的 
属性 包括 EGL_WIDTH、EGL_HEIGHT 等 ， 代 码 如 下 : 


EGLSurface surface = NULL ， 
EGLint format ， 
if (!eglGetConfigAttrib(display，config，EGL_NATIVE_VISUAL_ID， 
&format ) ) { 
LOGE("eglGetCconfigAttrib() returned error %d", eglGetError()); 
return Surface 


ANativeWindow_setBuffersGeometry(_window, 0, 0, format); 

If (!(surface = eglCreateWindowSurface(display, config, _window, 0))) { 
LOGE("eglCreatewindowSurface() returned error %d", eglGetError()); 

} 


有 的 读者 可 能 会 问 _window 是 什么 ? 这 里 需要 重点 解释 一 下 ， 这 
个 _window 就 是 通过 Java 层 的 Surface 对 象 创建 出 的 ANativeWindow 类 型 
的 对 象 ， 即 本 地 设备 屏幕 的 表示 ， 在 Android 里 面 可 以 通过 Surface ( 通 
过 SurfaceView 或 者 TextureView 来 得 到 或 者 构建 出 的 Surface 对 象 ) 构建 
ANativewWindow。 这 需要 我 们 在 使 用 的 时 候 引 用 头 文件 : 


#include <android/native_ window.h> 
#include <android/native window_ jni.h> 


调用 ANAtiveWindow API 的 代码 如 下 : 


ANativeWindow* window = ANativewindow_fromSurface(env, surface); 


env 就 是 JNI 层 的 JNIEnv 指 针 类 型 的 变量 ，surface 束 是 jobject 类 型 
的 变量 ， 由 Java 层 Surface 对 象 传递 而 米 。 这 样 就 可 以 把 EGL 和 Java 层 
的 View ( 即 设备 的 屏幕 ) 连接 起 来 了 。 如 果 要 做 离线 的 渲染 ， 即 在 后 


台 使 用 OpenGL 进 行 一 些 图 像 的 处 理 ， 束 需要 用 到 离线 处 理 的 Surface 
了 ， 创 建 离线 处 理 Surface 的 代码 如 下 : 


EGLSurface surface,; 


EGLint PbufferAttributes[] = { EGL WIDTH, width, EGL_HEIGHT, height, EGL_NONE, 
EGL_NONE }; 


If (!(surface = eglCreatePbufferSurface(display, config, PbufferAttributes))) { 
LOGE("eglCreatePbufferSurface() returned error %d", eglGetError()); 


井 行 离 


进行 离线 泻 染 的 时 候 ， 可 以 使 用 这 个 Surface 进 行 操作 。 


现在 ，EGL 的 准备 工作 已 经 做 好 了 ， 一 方面 为 OpenGL ES 的 泻 染 
准备 好 了 上 下 文 环 境 ， 可 以 接收 到 OpenGL ES 演 染 出 来 的 纹理 ， 另 外 
一 方面 连接 好 了 设备 的 屏幕 (Java 层 提供 的 SurfaceView 或 者 
TextureView) ， 那 么 接 下 来 就 来 具体 看 一 下 如 何 使 用 创建 好 的 EGL 环 
境 进 行 工 作 。 


首先 需 要 明确 一 点 ， 开 发 者 需要 开辟 一 个 新 的 线程 ， 来 执行 
OpenGL ES 的 泻 染 操作 ， 而 且 还 必须 为 该 线程 绑 定 显示 设备 
(Surface) 与 上 下 文 环 境 (Context) ， 因 为 每 个 线程 都 需要 绑 定 一 个 
上 下 文 ， 这样 才 可 以 执行 OpenGL 的 指令 ， 所 以 首先 需要 调用 
eglMakeCurrent， 来 为 该 线程 绑 定 Surface 与 Context。 


eglMakeCurrent(display, eglSurface, eglSurface, context); 


然后 加 可 以 执行 RenderLoop 循 环 了 ， 每 次 循环 都 将 调用 OpenGL 
ES 指令 绘制 图 像 。 前 文 曾经 提 到 过 ，EGL 的 工作 模式 是 双 缓 神 模式 ， 
其 内 部 有 两 个 FrameBuffer 〈 帧 缓冲 区 ， 可 以 理解 为 是 一 个 图 像 的 存储 
区 域 ) ， ee oD ee = 
FrameBuffer 就 在 后 人 台 等 每 OpenGL ES 进行 泻 染 输出 了 。 直 到 调用 函数 
eglSwapBuffers 这 条 0 时 候 ， 才 会 把 前 台 的 FrameBuffer 和 后 台 的 
FrameBuffer 进 行 交换 ， 这 样 用 户 就 可 以 在 屏 旬 上 看 到 刚才 OpenGL ES 
泻 染 输出 的 结果 了 了 。 


最 后 所 有 的 绘制 操作 执行 完毕 之 后 ， 需 要 销毁 人 资源。 注意 销 蝶 次 
源 也 必须 在 这 个 线程 中 ， 首先 旨 销 绒 显 示 设 备 ee : 


eglDestroySurface(display，eglSurface ) ， 


然后 销毁 上 下 文 (Context) : 


eglDestroyContext(display, context); 


至 此 在 Android 平 台 上 的 Native 层 中 ， 就 可 以 使 用 EGL 搭 建 起 来 的 
OpenGL ES 的 开发 环境 了 ， 后 面 的 章节 中 也 会 基于 此 进行 业务 开发 。 


2.iOS 下 的 环境 搭建 


在 iOS 平 台 上 不 允许 开发 者 使 用 OpenGL ES 直接 演 染 屏幕 ， 必 须 使 
用 FrameBuffer 与 RenderBuffer 米 进行 渲染 。 若 要 使 用 EAGL， 则 必须 先 
创建 一 个 RenderBuffer， 然 后 让 OpenGL ES 泻 染 到 该 RenderBuffer 上 
去 。 而 该 RenderBuffer 则 需要 绑 定 到 一 个 CAEAGLLayer 上 面 去 ， 这 样 
开发 者 最 后 调用 EAGLContext 的 presentRenderBuffer 方 法 ， 就 可 以 将 泻 
染 结 果 输 出 到 屏幕 上 去 了 。 实 际 上 ， 在 调用 这 个 方法 时 ，EAGL 也 会 
执行 类 似 于 前 面 的 swapBuffer 过 程 ， 将 OpenGL ES 泻 染 的 结果 绘制 到 
物理 屏幕 上 去 (View 的 Layer) ， 上 有 具体 使 用 步骤 如 下 。 


首先 编写 一 个 View 类 ， 继 承 自 UIView， 然 后 重 写 父 类 UIView 的 一 
个 方法 layerClass， 并 且 返 回 CAEAGLLayer 类 型 : 


+ (Class) layerClass 
{ 


return [CAEAGLLayer class]; 


然后 在 该 View 的 initWithFrame 方 法 中 ， 获 得 layer 并 且 强 制 类 型 转 
换 为 CAEAGLLayer 类 型 的 变量 ， 同 时 为 ljayer 设 置 参数 ， 其 中 包括 色彩 
模式 等 属性 : 


- (id) initwithFrame: (CGRect)framef{ 
If ((self = [super initwithFrame:frame]))t 

CAEAGLLayer *eaglLayer = (CAEAGLLayer *)[self layer]; 

NSDictionary *dict = [NSDictionary dictionarywWithobjectsAndKeys : 
[NSNumber numberwWithBool:NO], 
kEAGLDrawablePropertyRetainedBacking, 
kEAGLColorFormatRGB565, 
kEAGLDrawablePropertyColorFormat, 


nil]; 
[eaglLayer setOpaque:YES]; 
[eaglLayer setDrawableProperties:dict]; 


return self; 


} 


接 下 来 构造 EAGLContext 与 RenderBuffer 并 且 绑 定 到 Layer 上 ， 之 
前 也 提 到 过 ， 必 须 为 每 一 个 线程 绑 定 OpenGL ES 上 下 文 。 所 以 首先 必 
须 开 辟 一 个 线程 ， 开 发 者 在 iOS 中 开辟 一 个 新 线程 有 多 种 方式 ， 可 以 
使 用 dispatch_queue， 也 可 以 使 用 NSOperationQueue， 甚 至 使 用 pthread 
I 首先 创建 OpenGL ES 


EAGLContext* _context 
_Ccontext = [[EAGLContext alloc]initwithAPI:kEAGLRenderingAPIOpenGLES2]; 


然后 实施 绑 定 操作 ， 代 码 如 下 : 
[EAGLContext setCurrentContext:_context]; 


此 时 就 已 经 为 该 线程 绑 定 了 刚刚 创建 好 的 上 下 文 环境 了 ， 也 就 是 
ES 的 连接 ， 接 下 来 再 建立 另 一 端的 
寺 坟 。 


创建 帧 缓冲 区 : 


glGenFramebuffers(1，&_FrameBuffer ) ， 


创建 绘制 缓冲 区 : 


glGenRenderbuffers(1, &renderbuffer); 


绑 定 由 缓冲 区 到 演 染 管线 : 


glBindFramebuffer(GL_FRAMEBUFFER, _FrameBuffer ) ， 


绑 定 绘制 缓存 区 到 次 染 管线 : 


glBindRenderbuffer(GL_RENDERBUFFER, _renderbuffer); 


为 绘制 缓冲 区 分 配 存储 区 ， 此 处 将 CAEAGLLayer 的 绘制 存储 区 作 


为 绘制 缓冲 区 的 存储 区 : 


[_context renderbufferStorage:GL_RENDERBUFFER fromDrawable: (CAEAGLLayer*) 
self.1layer] 


获取 绘制 缓冲 区 的 像素 宽度 : 


glGetRenderBufferParameteriv(GL_RENDER_BUFFER， GL_RENDER_BUFFER_WIDTH， 
&_backingwidth ) ， 


获取 绘制 缓冲 区 的 像素 高 度 : 


glGetRenderBufferParameteriv(GL_RENDER_ BUFFER, GL_RENDER_BUFFER_HEIGHT， 
& backingHeight ) ， 


将 绘制 缓冲 区 绑 定 到 帧 缓冲 区 : 


glFramebufferRenderbuffer(GL_FRAMEBUFFER, GL_COLOR ATTACHMENTO, GL_RENDERBUFFER, 
_renderbuffer); 


检查 FrameBuffer 的 status: 


GLenum status = glCheckFramebufferStatus(GL_FRAMEBUFFER ) ， 
if(status != GL_FRAMEBUFFER_COMPLETE){ 

// failed to make complete frame buffer object 
} 


至 此 我 们 就 将 EAGL 与 Layer (设备 的 屏幕 ) 连接 起 来 了 ， 绘 制 完 


一 帧 之 后 (当然 绘制 过 程 也 必须 在 这 个 线程 之 中 ) ， 调 用 以 下 代码 : 


[_context presentRenderbuffer :GL_RENDERBUFFER] ， 


这 样 束 可 以 将 绘制 的 结果 显示 到 屏幕 上 了 。 至 此 我 们 怠 搭 建 好 了 
ES 的 上 下 文 环境 ， 后 面 章 和 会 在 此 基础 上 进行 业务 
开发 。 


4.3.4 ”OpenGL ES 中 的 纹理 


OpenGL 中 的 纹理 可 以 用 来 表示 图 像 、 照 片 、 视 频 夯 面 等 数据 ， 在 
视频 演 染 中 ， 只 需要 处 理 二 维 的 纹理 ， 每 个 二 维 纹理 都 由 许多 小 的 纹 
理 元 素 组 成 ， 它 们 都 症 小 块 数据 ， 类 似 于 前 面 草 市 所 说 的 像素 点 。 要 
使 用 纹理 ， 最 常用 的 方式 古 直 接 从 一 个 图 像 文件 加 载 数据 。 


为 了 访问 到 每 一 个 纹理 元 素 ， 每 个 二 维 纹理 都 有 其 目 己 的 坐标 至 
间 ， 其 范围 是 从 左下 角 的 (0，0) 到 右上 和 角 的 (1，1) 。 按 照 惯 例 ， 
一 个 维度 称 为 S， 而 另 一 个 则 称 为 T。 


如 图 4-6 所 示 ， 对 于 OpenGL 内 部 的 纹理 ， 坐 标的 方向 性 是 规定 
的 ，{ 方 同 下 面 是 90， 上 面 十 1， 而 对 于 s 方 同 ， 左 边 是 0， 右 边 是 1， 从 
而 构成 了 上 述 四 个 顶点 的 坐标 位 置 ， 而 中 间 的 位 置 就 是 (0.5，0.5) 。 
但 是 在 这 里 还 有 另外 一 个 坐标 系 的 概念 ， 那 融 是 计算 机 系统 里 的 坐标 
系 ， 通 常 将 x 轴 称 为 模 轴 ，y 轴 称 为 纵 轴 ， 如 图 4-7 所 示 。 
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我 们 所 熟知 的 不 论 古 计算 机 还 古 手 机 的 屏幕 坐标 系 ，x 轴 从 左 到 右 
都 是 从 0 到 1，y 轴 从 上 到 下 是 从 0 到 1， 与 图 片 的 存储 恰好 是 一 致 的 ， 假 
人 
第 一 个 像素 点 也 是 左上 角 的 像素 点 〈《 即 第 一 排 第 一 列 的 像素 点 ) ， 多 
后 是 第 二 个 像素 点 (第 一 排 第 二 列 ， 存储 在 数组 的 第 二 个 元 素 中 ， 1 
么 ， 这 里 的 坐标 和 OpenGL 中 的 纹理 坐标 正好 是 做 了 一 个 180 度 的 旋 
加 ， 后 面 将 会 看 到 如 何 从 本 地 图 片 中 加 载 一 张 纹理 并 且 泻 染 到 界面 
m0 完 坐 标的 理解 ， 在 那 时 就 会 显得 非常 


下 面 再 来 看 一 下 如 何 加 载 一 张 图 片 作 为 OpenGL 中 的 纹理 ， 肯 先 要 
在 显卡 中 创建 一 个 纹理 对 象 ，OpenGL ES 提供 的 方法 原型 如 下 : 


void glGenTextures (GLsizei n, GLuint* textures) 


这 个 方法 传递 进去 的 第 一 个 参数 是 需要 创建 儿 个 纹理 对 象 ， 并 且 
把 创建 好 的 纹理 对 象 的 句柄 放 到 第 二 个 参数 中 去 ， 所 以 第 二 个 参数 是 
一 个 数组 〈 指 针 ) 的 形式 。 如 果 只 需要 创建 一 个 纹理 对 象 的 话 ， 则 只 


需要 声明 一 个 GLuint 类 型 的 texId， 然 后 针对 该 纹理 ID 取 地 址 ， 并 将 其 
作为 第 二 个 参数 ， 就 可 以 创建 出 这 个 纹理 对 象 了 ， 代 码 如 下 : 


glGenTextures(1, &texId); 


执行 完 这 行 代码 之 后 ， 就 会 在 显卡 中 创建 出 一 个 纹理 对 象 ， 并 且 
把 该 纹理 对 象 的 句柄 返回 给 texId 变 量 。 紧 接着 开发 者 要 操作 该 纹理 对 
象 ， 但 是 在 OpenGL ES 的 操作 过 程 中 必须 告诉 OpenGL ES 具体 操作 的 
是 哪 一 个 纹理 对 象 ， 所 以 必须 调用 OpenGL ES 提供 的 一 个 绑 定 纹理 对 
象 的 方法 ， 调 用 代码 如 下 : 


glBindTexture(GL_TEXTURE_2D, texId); 


执行 完毕 上 面 这 行 代码 之 后 ， 下 面 的 操作 就 都 是 针对 于 texld 这 个 
纹理 对 象 的 了 ， 最 终 对 该 纹理 对 象 操作 完毕 之 后 ， 我 们 可 以 调用 一 次 
解 绑 定 的 代码 ; 


glBindTexture(GL_TEXTURE_2D, 0); 


这 行 代码 执行 完毕 之 后 ， 代 表 开 发 者 不 会 对 texId 纹 理 对 和 象 做 任何 
操作 了 ， 所 以 上 面 这 行 代码 只 在 最 后 的 时 候 才 调用 。 接 下 来 号 古 最 关 
键 的 部 分 ， 即 如 何 将 本 地 磁盘 上 的 一 个 PNG 的 图 片上 传 到 显卡 中 的 这 
个 纹理 对 象 上 。 在 将 图 片上 传 到 这 个 纹理 上 之 前 ， 首 先 应 该 要 对 这 个 
纹理 对 象 设置 一 些 参 数 ， 具 体 参 数 有 哪些 ? 其 实 束 是 纹理 的 过 渡 方 
式 ， 当 纹理 对 象 (可 以 理解 为 一 张 图 片 ) 被 泻 染 到 物体 表面 上 的 时 候 
(实际 上 是 OpenGL 绘 制 管线 将 纹理 的 元 素 映 射 到 OpenGL 生 成 的 片段 
上 的 时 候 ) ， 有 可 能 要 被 放大 或 者 缩小 ， 而 当 其 放大 或 者 缩小 的 时 
候 ， 具 体 应 该 如 何 确 定 每 个 像素 是 如 何 被 填充 的 ， 就 由 开发 者 配置 的 
纹理 对 象 的 纹理 过 滤 帮 来 指明 。 


magnification (放大 ) : 


glTexParameteri(GL_TEXTURE 2D, GL_TEXTURE_ MAG_ FILTER, GL_LINEAR); 


这 ere J 
minification (缩小 ) : 
glTexParameteri(GL_TEXTURE_2D, GL_TEXTURE_MIN_FILTER, GL_LINEAR); 


一 般 在 视频 的 演 染 与 处 理 的 时 候 使 用 GL_LINEAR 这 种 过 滤 方 式 ， 
该 过 滤 方 式 称 为 双 线 性 过 滤 ， 可 使 用 双 线 性 插值 平滑 像素 之 间 的 过 
渡 ，OpenGL 会 使 用 四 个 邻接 的 纹理 元 素 ， 并 在 它们 之 间 用 一 个 线性 插 
值 算法 做 插值 ， 该 过 滤 方 式 是 最 主要 的 过 滤 方 式 ， 当 然 OpenGL 中 还 提 
供 了 另外 几 种 过 滤 方 式 。 常 见 的 有 GL_NEAREST， 称 为 最 邻近 过 滤 ， 
该 方式 将 为 每 个 片段 选择 最 近 的 纹理 元 素 ， 但 是 当 其 放大 的 时 候 会 有 
很 严重 的 锯齿 效果 (因为 相当 于 将 原始 的 直接 放大 ， 其 实 就 是 降 采 
样 ) ， 而 当 其 缩小 的 时 候 ， 因 为 没有 足够 的 片段 来 绘制 所 有 的 纹理 单 
元 〈 这 个 是 真正 的 降 采 样 ) ， 许 多 细节 都 会 丢失 ， 相 较 于 这 两 种 过 滤 
方式 ， 本 书 在 使 用 纹理 的 过 滤 方 式 时 都 会 选用 双 线 性 过 滤 的 过 滤 方 式 
(GL_LINEAR) ; 其 实 OpenGL 还 提供 了 另外 一 种 技术 ， 称 为 MIP 贴 
图 ， 但 是 这 种 技术 会 占用 更 多 的 内 存 ， 其 优点 是 泻 染 也 会 更 快 。 当 缩 
小 和 放大 到 一 定 程度 之 后 效果 也 比 双 线 性 过 滤 的 方式 更 好 ， 但 是 其 对 
纹理 的 尺寸 以 及 内 存 的 占用 是 有 一 定 限制 的 ， 不 过 ， 在 视频 的 处 理 以 
及 泻 染 的 时 候 不 需要 放大 或 者 缩小 这 么 多 倍 ， 所 以 在 进行 视频 的 处 理 
以 及 泻 染 的 场景 下 ，MIP 贴 图 并 不 适用 。 


紧 接 痢 来 看 一 下 对 于 纹理 对 象 的 男 外 一 个 设置 ， 也 就 是 在 纹理 从 
人 
则 ， 代 的 如 下 : 


glTexParameteri(GL_TEXTURE 2D, GL_TEXTURE WRAP_S, GL_CLAMP_TO_EDGE); 
glTexParameteri(GL_TEXTURE 2D, GL_TEXTURE WRAP_T, GL_CLAMP_TO_EDGE); 


上 述 代 码 所 表示 的 含义 是 ， 将 该 纹理 的 s 轴 和 t 轴 的 坐标 设置 为 
GL_CLAMP_TO_EDGE 类 型 ， 因 为 纹理 坐标 可 以 超出 (0，1) 的 范 
图， 而 按照 上 述 设置 规则 ， 所 有 大 于 1 的 纹理 值 都 要 设置 为 1， 所 有 小 
于 0 的 值 都 要 置 为 0。 


接 下 来 ， 丈 是 将 PNG 素 材 的 内 容 放 到 该 纹理 对 象 上 ，OpenGL 的 大 
部 分 纹理 一 般 都 只 接受 RGBA 类 型 的 数据 〈 和 否则 还 得 去 做 转化 ， 后 续 
会 讲 到 YUV420P 格 式 的 视频 帧 在 显卡 中 是 如 何 转换 为 RGBA 格 式 


的 ) ， 所 以 我 们 需要 对 PNG 这 种 压缩 格式 进行 解码 操作 ， 如 果 想 要 采 
用 一 种 更 通用 的 方式 ， 那 么 可 以 引用 libpng 库 来 进行 解码 操作 ， 当 然 
也 可 以 使 用 各 目 平 台 的 API 进 行 解码 ， 最 终 可 以 得 到 RGBA 的 数据 。 得 
I ， 记 为 uint8_t 数 组 类 型 的 pixels， 然 后 执行 如 下 
四 F: 


glTexImage2D(GL_TEXTURE_ 2D, 0, GL_RGBA, width, height, 0, GL_RGBA, 
GL_UNSIGNED_BYTE, pixels); 


这 样 束 可 以 将 该 RGBA 的 数组 表示 的 像素 内 容 上 传 到 显卡 里 面 
texId 所 代表 的 纹理 对 象 中 去 了 ， 以 后 只 要 使 用 该 纹理 对 象 ， 其 实 表示 
的 就 是 这 个 PNG 图 片 。 


OpenGL 中 的 纹理 表示 如 何 为 物体 增加 细节 ， 现 在 我 们 已 经 准备 好 
了 该 纹理 ， 那 么 如 何 把 这 张 图 片 (或 者 说 这 个 纹理 ) 绘制 到 屏幕 上 
呢 ? 首先 来 看 一 下 OpenGL 中 的 物体 坐标 系 ， 如 图 4-8 所 示 ， 物 体 坐 标 
系 中 x 轴 从 左 到 右 是 从 -1 到 1 变化 的 ，y 轴 从 下 到 上 古 从 -1 到 1 变化 的 ， 
物体 的 中 心 点 恰好 是 (0，0) 的 位 置 。 
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接 下 来 的 任务 就 是 如 何 将 这 个 纹理 绘制 到 屏幕 上 上， 其实 相关 的 基 

础 知识 已 经 都 讲解 过 了 ， 首 先是 搭建 好 各 目 平 台 的 OpenGL ES 的 环境 

(包括 上 下 文 与 窗口 管理 ) ， 然 后 创建 显卡 可 执行 程序 ， 书 写 Vertex 
Shader， 代 人 码 如 下 : 


static char* COMMON_VERTEX_SHADER = 


"attribute vec4 position; \n" 
"attribute vec2 texcoord; \n" 
"Varying vec2 v_texcoord; \n" 
mh Nn' 
"void main(void) \n" 
mh Nn' 
gl1_Position = position,; \n" 
V_texcoord = texcoord; \n" 
"} \n"; 


在 客户 端 代码 中 ， 开 发 者 要 从 VertexShader 中 读 取 出 两 个 
attribute， 并 放置 到 全 局 变量 的 mGLVertexCoords 与 mGLTextureCoords 
中 ， 接 下 来 是 Fragment Shader 的 内 容 ， 代 码 如 下 所 示 : 


static char* COMMON_FRAG_SHADER = 
"precision highp float,; \n" 
"varying highp vec2 v_texcoord; \n" 


"uniform sampler2D texSampler; \n" 
mh \n" 
"void main() { \n" 

gl1_FragColor = texture2D(texSampler, v_texcoord); \n" 
和 Nn'" 


从 FragmentShader 中 读 取 出 来 的 uniform 会 放置 到 
mGLUniformTexture 变 量 里 ， 利 用 上 面 两 个 Shader 创 建 好 的 Program， 
称 为 nGLProgId。 紧 接着 进行 真正 的 绘制 操作 ， 下 面 将 详细 地 讲解 一 
下 绘制 部 分 。 


1) 规定 窗口 的 大 小 : 


glViewport(0, ©0, screenwidth, screenHeight); 


假定 screenWidth 表 示 绘 制 区 域 的 宽度 ，screenHeight 表 示 绘 制 区 域 
的 高 度 。 


2) 使 用 显卡 绘制 程序 : 


glUseProgram(mGLProgId ) ， 


3) 设置 物体 坐标 : 


GLfloat vertices[] = { -1.0f, -1.0f, 1.0f, -1.0f, -1.0f, 1.0f, 1.0f, 1.0f }; 
glVertexAttribPpointer(mGLVertexCoords, 2, GL_FLOAT, 0, 0, vertices),; 
glEnableVvertexAttribArray(mGLVertexCoords); 


4) 设置 纹理 坐标 : 


GLfloat texCoords1[] = { 0.0f, 0.0f, 1.0f, 0.0f, 0.0f, 1.0f, 1.0f, 1.0f }; 
GLfloat texCoords2[] = { 0.0f, 1.0f, 1.0f, 1.0f, ©0.0f, 0.0f, 1.0f, 0.0f }; 
glVertexAttribPointer(mGLTextureCoords, 2, GL_FLOAT, 0, 0, texCoords2); 
glEnableVvertexAttribArray(mGLTextureCoords); 


这 里 需要 注意 的 是 texCoords2 这 个 纹理 坐标 ， 因 为 其 纹理 对 象 是 
将 一 个 PNG 图 片 的 RGBA 格 式 的 形式 上 传 到 显卡 上 〈 即 计算 机 坐 
标 ) ， 如 果 该 纹理 对 象 是 OpenGL 中 的 一 个 普通 纹理 对 象 ， 则 需要 使 用 
texCoords1， 这 两 个 纹理 坐标 恰恰 就 是 要 做 一 个 上 下 的 翻转 ， 从 而 将 
计算 机 坐标 系 和 OpenGL 坐 标 系 进行 转换 。 


5) 指定 将 要 绘制 的 纹理 对 象 并 且 传 递 给 对 应 的 FragmentShader: 


glActiveTexture(GL_ TEXTUREOQ); 
glBindTexture(GL_TEXTURE_2D, texId); 
glUuniform1i(mGLUniformTexture, 0); 


6) 执行 绘制 操作 : 


glDrawArrays(GL_TRIANGLE_STRIP, 0, 4); 


至 此 就 可 以 在 绘制 区 域 (屏幕 ) 绘制 出 最 初 的 PNG 图 片 了 。 


_ 如 采 该 纹理 对 象 不 再 使 用 了 ， 则 需要 将 其 删除 掉 ， 需 要 执行 的 代 
AE: 


glDeleteTextures(1, &texId); 


当然 ， 只 有 在 最 终 不 再 使 用 这 个 纹理 的 时 候 才 会 调用 上 述 这 个 方 
法 ， 如 末 不 调用 该 方法 则 会 造成 显存 的 泄漏 。 


具体 的 实例 请 读 考 参考 代码 仓库 中 的 OpenGLRenderer 项 目 ， 注 


， Android 项 目 首先 需要 把 resource 目 录 下 的 PNG 图 片 放 到 运行 设备 
的 sdcard 的 根 目 隶 之 下 。 


Bm 
局 
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4.4 本 章 小 结 


本 章 主 要 介绍 了 移动 端 音 视频 的 泻 染 ， 音 频 使 用 对 应 平台 提供 的 
API 进 行 泻 染 ， 其 中 在 iOS 平 台 使 用 AudioUnit 进 行 泻 染 首 频 ， 在 
Android 平 台 分 别 讲解 了 使 用 AudioTrack 以 及 OpenSL ES 来 泻 染 音频 。 
视频 使 用 跨 平 台 的 OpenGL ES 方案 进行 泻 染 ， 但 是 OpenGL ES 需要 各 
自 平台 提供 对 应 的 窗口 管理 与 上 下 文 环 境 ， 所 以 也 讲解 了 Android 与 
iOS 平 台 对 于 OpenGL ES 的 窗口 管理 与 上 下 文 环境 的 创建 。 最 后 还 讲解 
了 OpenGL ESs 中 的 纹理 ， 理 解 纹理 的 概念 以 及 用 法 是 非常 重要 的 ， 
为 在 本 书后 边 所 有 与 OpenGL ES 相关 的 处 理 都 与 纹理 居 尽 相关 。 本 章 
作为 移动 端 音 视频 领域 开发 的 基础 部 分 ， 请 读者 结合 源码 仓库 中 的 实 
例 加 深 理 解 。 


第 5 章 “” 实现 一 款 视频 播放 器 


前 3 章 讨论 了 许多 音 视 频 相 关 的 知识 ， 包 括 音 视频 的 基本 概念 ， 如 
何 搭建 移动 平台 下 的 开发 环境 ， 并 学 习 了 FFmpeg 以 及 使 用 FFmpeg 解 
码 的 方法 ， 第 4 章 学 习 了 如 何 将 音 视 频 的 裸 数据 泻 染 到 硬件 设备 上 。 所 
以 现在 我 们 完全 可 以 做 一 个 实际 的 大 项 目 一 一 视频 播放 右 ， 该 项 目 能 
够 把 之 前 所 学 的 知识 串联 起 来 ， 并 且 还 可 以 学 习 到 多 线程 控制 、 音 视 
频 同 步 等 一 些 知识 ， 那 么 实现 一 款 视 频 播放 器 具体 需要 开发 者 做 哪些 
工作 呢 ， 本 章 将 市 领 大 家 逐步 来 实现 。 


5.1 架构 设计 


首先 来 看 一 下 播放 器 需要 为 用 户 提供 哪些 功能 : 能 够 从 零 开始 播 
放 (当然 要 保证 首 画 对 齐 ) ; 文 持 暂停 和 继续 播放 功能 ， 文 持 seek 功 能 
(就 是 可 以 随意 拖 动 到 任意 位 置 并 仍然 可 以 继续 播放 ) ， 有 的 播放 器 
还 支持 快 进 、 快 退 15s。 下 面 先 来 实现 最 基本 的 功能 ， 即 播放 器 能 够 从 
零 开始 播 放 、 暂 信和 继续 。 


首先 来 思考 一 下 要 实现 的 场景 ， 播 放 般 可 以 从 堆 开 始 播放 直到 续 
束 。 如 采 直 接 抛 出 这 样 一 个 项 目 ， 我 们 很 容易 找 不 到 任何 头绪 ， 但 旦 
作为 一 个 开发 人 员 ， 要 做 的 事情 束 是 把 复杂 的 问题 简单 化 ， 简 单 的 问 
题 条 理化 ， 最 终 控 照 拆 分 得 非 间 细 的 模块 来 逐个 实现 。 基 于 这 个 项 
目 ， 我 们 需要 思考 以 下 几 个 问题 : 


-输入 是 什么 ? 
-输出 是 什么 ? 
可 以 划分 为 几 个 模块 ? 
-每 个 模块 的 职 贡 是 什么 ? 


下 面 对 问 题 逐 个 进行 梳理 ， 首 先 要 搞 清 楚 输 入 是 什么 ， 输 入 既 可 
以 是 本 地 磁盘 上 的 一 个 媒体 文件 〈 可 能 是 FLV、MP4、AVI、MOV 等 格 
式 的 文件 ) ， 也 可 以 是 网 络 上 的 一 个 媒体 文件 〈 可 能 是 HTTP、 
RTMP、HLS 等 协议 ) ， 这 就 是 我 们 确定 的 输入 ; 那么 输出 又 是 什么 
呢 ? 输出 就 是 让 扬声器 播放 视频 中 的 音频 使 用 户 的 耳 杀 可 以 听 到 声 
音 ， 让 屏幕 显示 视频 画面 使 用 户 的 眼睛 可 以 看 到 画面 ， 同 时 ， 听 到 的 
声音 和 看 到 的 画面 必须 是 同步 的 〈 也 就 是 说 不 能 让 用 户 听 到 的 是 “你 
好 ”的 发 音 ， 看 到 的 却 是 “ 吃 了 ”的 画面 ) ; 然后 再 根据 输入 和 输出 拆 分 
模块 ， 并 为 模块 分 配合 理 的 职责 。 


对 于 输入 部 分 的 分 析 具 体 如 下 ， 输 入 有 可 能 是 不 同 的 协议 ， 比 如 
说 file (本 地 磁盘 的 文件 ) ， 或 者 是 HTTP、RTMP、HLS 协 议 等 ， 也 有 
可 能 是 不 同 的 封装 格式 ， 比 如 说 MP4、EFLV、MOV 等 封装 格式 ; 而 对 
于 这 些 封 装 格式 里 面 的 内 容 ， 会 有 两 路 流 ， 分 别 是 音频 流 和 视频 流 ， 
我 们 需要 将 这 两 路 流 都 解码 为 裸 数据 。 竺 视频 流 和 音频 流 都 解码 为 裸 


数据 之 后 ， 需 要 为 音 视频 各 自 建 立 一 个 队列 将 裸 数据 存储 起 来 ， 不 

过 ， 如 果 有 是 在 需要 播放 一 帧 的 时 候 再 去 做 解码 ， 那 么 这 一 帧 的 视频 就 
有 可 能 产生 卡 顿 或 者 延迟 ， 所 以 这 里 引出 了 第 一 个 线程 ， 即 为 播放 融 
的 后 台 解 码 分 配 一 个 线程 ， 该 线程 用 于 解析 协议 ， 处 理解 封装 以 及 解 
A 0 


下 面 再 来 看 输出 部 分 ， 输 出 部 分 其 实 是 由 两 部 分 组 成 的 : 一 部 分 
征 音 频 的 输出 ， 必 一 部 分 是 视频 的 输出 。 不 过 可 以 确定 的 是 ， 不 论 是 
首 频 的 输出 还 是 视频 的 输出 ， 它 们 都 会 用 一 个 线程 来 进行 管理 ， 这 两 
个 模块 应 该 移 从 队列 中 获取 音 视 频 的 裸 数据 ， 然 后 分 别 进行 音 视 频 的 
渲染 ， 并 最 终 发 布 到 扬声器 和 屏幕 上 ， 使 得 用 户 可 以 昕 得 到 、 看 得 
到 ， 这 两 个 模块 称 为 音频 输出 和 视频 输出 模块 。 


下 面 再 来 思考 一 件 事情 ， 由 于 输出 模块 都 在 各 自 的 线程 中 ， 首 频 
和 视频 均 是 单独 播放 ， 这 了 束 导 致 了 两 个 输出 模块 的 播放 频率 以 及 线程 
控制 没有 任何 关系 ， 从 而 无 法 保证 音 画 对 齐 。 我 们 规划 的 各 个 模块 
里 ， 好 像 还 没有 一 个 模块 的 职责 是 负责 音 视 频 同步 的 ， 所 以 需要 再 建 
立 一 个 模块 来 负责 相关 的 工作 ， 这 个 模块 称 为 音 视频 同步 模块 。 


至 此 ， 模 块 痢 已 拆 分 完毕 ， 具 体 的 模块 分 布 如 图 5-1 所 示 。 


不 过 ， 我 们 还 应 该 再 写 一 个 调度 器 ， 将 这 几 个 模块 组 装 起 来 。 也 
就 是 说 ， 先 把 输入 模块 、 首 频 队 列 、 视 频 队 列 都 封装 到 首 视 频 同步 模 
块 中 ， 然 后 为 外 界 近 供 获 取 首 频数 据 、 视 频数 据 的 接口 ， 这 两 个 接口 
必须 保证 音 视 频 的 同步 ， 内 部 将 负责 解码 线程 的 运行 与 暂停 的 维护 。 
然后 把 音 视频 同步 模块 、 音 频 输 出 模块 、 视 频 输 出 模块 都 封装 到 调度 
器 中 ， 调 度 器 模块 会 分 别 癌 音频 输出 模块 和 视频 输出 模块 注册 回调 函 
数 ， 回 调 函 数 允 许 两 个 输出 模块 获取 首 频 数据 和 视频 数据 。 这 样 就 可 
以 对 类 图 设计 做 进一步 整理 了 ， 如 图 5-2 所 示 。 


图 5-2 评 细 的 解释 具体 如 下 。 


“VideoPlayerController 调度 器 ， 内 部 维护 首 视 频 同步 模块 、 首 频 
输出 模块 、 视 频 输 出 模块 ， 为 客户 端 代码 提供 开始 播放 、 和 暂停 、 继 续 
人 
并 的 接口 。 


架构 设计 图 
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AudioOutput 
=- size : int ~ audioOutputThread : Thread 
~ head : VideoFrame* ~ audioRenderer : Void 
+ pushtvideoFrame : VideoFrame*) : void ~ MAvdioDataCallback : im 
+ pop(frame : VideoFrame*) : int + start(channel : int, sampleRate : int, format : int) : boolean 


+ Stop0 : void 
+ run0 : void 


VideoPlayerController 
- decoder : VideoDecoder ~ synchronizer : AVSynchr 
VideoDecoder - videoQueue : VideoFrameQueue 2 Au : 人 
~ protocolParser : Void - audioQueue : AudioFrameQueue - videoOutput : VideoOutput 
-formatDemuxer : Void ~ decoderThread : Thread 
~ decoder : Void + en uri : ind) : int 
十 openFile(uri : String) : void ~ run0 : vol 
+ closeFile0 : void + getAudioFrame0 : AudioFrame~ + stop0 : void 
+ isEOF0 : boolean + getCorrectVideoFrame(postiion : float) : VideoFrame* + getCorrectVideoFrame0 : VideoFrame 
+ decodeFrame(lduration : float) : void + stop0 : void + getAudioFrame0 : AudioFrame 


VideoOutput 
positon : foat et 
~ samples : short[] ~ size : int ~ fillvideoFrameCallback : int 
~ channel: Int =- head : AudioFrame* 
~- sampleRate : int S + start(format : int, width : int, height : int) : boolean 
- format : int + psuh(audioFrame : AudioFrame*) : void : void 

+ poplaudioFrame : AudioFrame*, block : bool) : int 


图 5-2 


AudioOutput: 音频 输出 模块 ， 由 于 在 不 同 平台 上 有 不 同 的 实现 ， 
所 以 这 里 真正 的 声音 演 染 API 为 Void 类 型 ， 但 是 音频 的 泻 染 要 放 在 一 个 
单独 的 线程 (不论 是 平台 API 目 动 提供 的 线程 ， 还 是 我 们 主动 建立 的 线 
程 ) 中 进行 ， 所 以 这 里 有 一 个 线程 的 变量 ， 在 运行 过 程 中 会 调用 注册 
过 来 的 回调 函数 来 获取 音频 数据 。 


.VideoOutput: 视频 输出 模块 ， 虽 人 然 这 里 统一 使 用 OpenGL ES 来 泻 
染 视 频 ， 但 是 前 文 已 提 到 过 ，OpenGL ES 的 具体 实现 在 不 同 的 平台 上 
也 会 有 自己 的 上 下 文 环境 ， 所 以 这 里 采用 了 Void 类 型 的 实现 ， 当 然 ， 必 
须 由 我 们 主动 开启 一 个 线程 来 作为 OpenGL ES 的 泻 染 线程 ， 它 会 在 运 
行 过 程 中 调用 注册 过 来 的 回调 函数 来 获取 视频 数据 。 


-AVSynchronizer: 音 视 频 同 步 模块 ， 会 组 合 后 文 将 要 讲 到 的 输入 
模块 、 音 频 队 列 和 视频 队列 ， 其 主要 为 它 的 客户 端 代码 
VideoPlayerController 调 度 器 提供 接口 ， 包 括 : 开始 、 结 束 ， 以 及 最 重 
要 的 获取 音频 数据 和 获取 对 应 时 间 惟 的 视频 帧 。 此 外 ， 它 还 会 维护 一 
个 解码 线程 ， 并 且 根 据 音 视频 队列 里 面 的 元 素数 目 来 继续 或 者 暂停 该 
解码 线程 的 运行 。 


-AudioFrame: 音频 帧 ， 其 中 记录 了 音频 的 数据 格式 以 及 这 一 帧 的 
具体 数据 、 时 间 惟 等 信息 。 


:AudioFrameQueue: 音频 队列 ， 主 要 用 于 存储 音频 帧 ， 为 它 的 客 
户 病人 代码 音 视 频 同 步 模 块 提供 庄 入 和 弹出 操作 ， 由 于 解码 线程 和 声音 
播放 线程 会 作为 生产 者 和 消费 者 同时 访问 该 队列 中 的 元 素 ， 所 以 该 队 
列 要 保证 线程 安全 性 。 


“VideoFrame: 视频 巾 ， 记 录 了 视频 的 格式 以 及 这 一 帧 的 具体 的 数 
据 、 宽 、 高 以 及 时 间 崔 等 信息 。 


-VideoFrameQueue: 视频 队列 ， 主 要 用 于 存储 视频 帧 ， 为 它 的 客户 
问 代 码 首 视频 同步 模块 提供 压 入 和 弹出 操作 ， 由 于 解码 线程 和 视频 播 
放 线 程 会 作为 生产 者 和 消费 者 同时 访问 该 队列 中 的 元 素 ， 所 以 该 队列 
要 保证 线程 安全 性 。 


.VideoDecoder: 输入 模块 ， 其 职责 在 前 面 已 经 分 析 过 了 ， 由 于 还 
没有 确定 具体 的 技术 实现 ， 所 以 这 里 先 根据 前 面 的 分 析 暂 时 写 了 三 个 
实例 变量 ， 一 个 是 协议 层 解 析 絮 ， 一 个 是 格式 解 封装 器 ， 一 个 是 解码 


露 ， 并 且 它 主要 问 AVSynchronizer 提 供 接口 : 打开 文件 资源 (网 络 或 者 
本 地 ) 、 关 闭 文 件 资源 、 解 码 出 一 定时 间 长 度 的 音 视 频 帧 。 


至 此 我 们 根据 用 户 场 景 (Case) 把 视频 播放 器 拆 解 成 了 各 个 模 
块 ， 并且 根据 模块 的 调用 关系 男 出 了 类 图 ， 那 么 接 下 来 要 做 的 事情 整 
应 该 是 拆 分 每 个 模块 的 具体 实现 。 


首先 是 输入 模块 ， 如 果 是 目 己 编写 代码 处 理 这 些 不 同 的 协议 、 封 
装 格式 ， 以 及 编 解码 格式 (更 专业 地 来 讲 是 各 种 解码 器 ) ， 肯 定 会 是 
非常 复杂 也 极其 不 合理 的 ， 因 为 这 套 东 西 已 经 非常 成 熟 了 ， 自 行 实现 
需要 付出 很 大 的 开发 与 测试 成 本 ， 并 且 最 终 效 果 也 不 会 太 理想 。 而 基 
于 我 们 现在 所 掌握 的 知识 ， 可 选择 FFmpeg 开 源 库 的 libavformat 模 块 来 
处 理 各 种 不 同 的 协议 以 及 不 同 的 封装 格式 。 在 解 封装 成 每 一 路 流 之 
后 ， 接 下 来 束 需 要 进行 解码 的 操作 ， 当 然 ， 最 简单 的 也 可 以 直接 使 用 
FFmpeg 的 libavcodec 模 块 来 进行 ， 但 是 如 果 需 要 更 高 性 能 的 解码 ， 那 么 
开发 者 可 以 使 用 Android 和 iOS 平 台 各 自 的 人 硬件 解码 器 。 本 章 暂 时 先 不 
考虑 优化 ， 只 是 移 快 速 实现 出 一 套 方 案 ， 使 用 软件 解码 会 是 一 种 比较 
， 所 以 本 章 将 使 用 FFmpeg 的 libavcodec 模 块 作为 解码 器 模块 的 

] 偿 葬 。 


其 实 对 于 架构 来 说 ， 没 有 最 好 的 设计 ， 只 有 最 合适 的 设计 。 在 这 
里 ， 重 件 解码 名 对 于 系统 平台 站 有 限制 的 ， 同 时 还 会 有 一 些 兼 容 性 问 
题 ， 并 且 两 个 平台 还 需要 分 别 编写 代码 来 实现 各 目的 硬件 解码 句 ， 并 
将 人 硬件 解码 右 解 码 出 来 的 数据 转换 为 可 用 于 显示 的 视频 帧 数据 结构 。 
因为 本 章 需 要 快速 实现 各 个 模块 ， 所 以 这 里 选择 使 用 软件 解码 器 ， 同 
时 它 有 更 高 的 兼容 性 以 及 更 简单 的 API 调 用 。 以 后 很 可 能 需要 通过 硬件 
解码 来 提升 性 能 ， 所 以 在 设计 解码 模块 的 时 候 可 以 更 多 地 使 用 面 问 接 
口 的 设计 ， 以 便 日 后 更 加 方便 地 替换 实现 。 


其 次 是 音频 输出 模块 ， 音 频 的 输出 其 实 有 很 多 种 方式 ， 下 面 就 来 
分 别 分 析 一 下 ， 首 先是 Android 平 台 ， 最 常用 的 就 是 Java 层 的 
AudioTrack 和 Native 层 的 OpenSL ES。 主 要 代码 处 于 Native 层 ， 在 
AudioTrack 和 OpenSL ES 之 间 ， 应 该 选择 OpenSL ES， 因 为 其 省 去 了 JNI 
的 数据 传递 ， 并 且 OpenSL ES 在 播放 声音 方面 的 延迟 更 低 ， 其 缺点 是 所 
提供 的 API 比 起 AudioTrack 的 不 够 友好 ， 调 试 也 不 太 方 便 ， 但 是 从 总 体 
来 分 析 ， 还 是 选择 OpenSL ES 更 合适 ， 对 于 iOS 平 台 ， 其 实 也 有 很 多 种 
方式 ， 比 较 常 见 的 就 是 AudioQueue 和 AudioUnit，AudioQueue 是 更 高 层 
次 的 音频 API， 是 建立 在 AudioUnit 的 基础 之 上 的 ， 其 所 提供 的 API 更 加 


简单 ， 在 这 里 其 实 选 用 AudioQueue 可 能 会 更 加 合适 ， 但 是 我 们 最 终 还 
是 会 选用 AudioUnit， 对 此 ， 有 如 下 几 个 原因 : 首先 可 能 存在 音频 格式 
的 转换 ， 这 时 AudioUnit 会 更 加 方便 ， 并 且 这 里 还 需要 为 后 续 的 录音 、 
A oUt 所 以 这 里 将 直接 选择 AudioUnit 作 
为 实现 。 


然后 是 视频 输出 模块 ， 对 此 ， 技 术 选 型 肯定 是 选择 OpenGL ES ， 
因为 我 们 可 以 利用 它 非常 高 效率 的 泻 染 视 频 ， 不 论 是 在 Android 平 台 还 
是 在 iOS 平 台 ， 前 面 也 已 经 学 习 了 如 何在 Android 平 台 和 iOS 平 台 搭建 
OpenGL ES 的 环境 。 此 外 ， 在 这 里 使 用 OpenGL ES 还 有 一 个 好 处 ， 那 就 
是 我 们 可 以 利用 OpenGL ES 处 理 图 像 的 巨大 优势 ， 来 对 视频 做 一 个 后 
期 处 理 (通过 去 块 滤波 器 、 增 加 对 比 度 等 效果 器 的 使 用 ) ， 让 用 户 感 
觉 视 频 更 加 清晰 。 在 Android 平 台 上 使 用 EGL 来 为 OpenGL ES 提供 上 下 
文 环境 ， 使 用 SurfaceView 的 Surface 来 构造 显示 对 象 ， 并 最 终 输 出 到 
SurfaceView 上 ; 在 iOS 平 台 上 使 用 EAGL 来 为 OpenGL ES 提供 上 下 文 环 
境 ， 自 己 定 义 一 个 View 继 承 自 UIView， 使 用 EAGLLayer 作 为 泻 染 对 
象 ， 并 最 终 演 染 到 这 个 自 定 义 的 View 上 。 


至 于 首 视频 同步 模块 ， 这 里 不 会 涉及 任何 与 平台 相关 的 API,， 不 
过 ， 考 虑 到 它 要 维护 解码 线程 ， 因 此 pthread 其 实 是 一 个 很 好 的 选择 ， 
因为 两 个 平台 都 支持 这 种 线程 模型 。 此 外 ， 它 还 需要 维护 两 个 队列 ， 
由 于 STL 中 提供 的 队列 不 能 保证 线程 的 安全 性 ， 所 以 对 于 音 视频 队列 ， 
我 们 可 以 自行 编写 一 个 保证 线程 安全 的 链表 来 实现 。 最 后 要 人 负责 音 视 
频 的 同步 ， 由 于 音 视 频 同 步 的 策略 在 前 面 的 章 世 中 已 经 提 到 过 ， 因 此 
这 里 采用 视频 向 音频 对 齐 的 策略 ， 即 只 需要 把 同步 这 块 逻 辑 放 到 获取 
视频 帧 的 方法 里 面 殉 好 了 。 


最 后 是 控制 器 ， 控 制 絮 需要 将 上 述 的 三 个 模块 合理 地 组 装 起 来 。 
在 开始 播放 的 上 时候， 需要 把 资源 的 地 址 (有 可 能 是 本 地 的 文件 ， 也 有 
可 能 是 网 络 的 资源 文件 ) 传递 给 AVSynchronizer， 如 果 能 够 成 功 地 打开 
文件 ， 那 么 就 去 实例 化 VideoOutput 和 AudioOutput， 在 实例 化 这 两 个 类 
的 同时 ， 要 传 入 回调 函数 ， 这 两 个 回调 函数 又 将 分 别 调用 
AVSynchronizer 里 面 的 获取 音频 和 视频 帧 的 方法 ， 这 样 就 可 以 有 序 地 组 
织 多 个 模块 ， 最 终 如 果 要 调用 暂停、 继续 或 停止 的 指令 ， 目 然 也 就 会 
调用 各 个 模块 对 应 的 生命 周期 方法 。 


前 文中 笔者 将 每 个 模块 的 具体 实现 梳理 了 一 过 ， 这 样 ， 其 实 架 构 
已经 基本 成 型 了 ， 但 是 对 于 架构 师 来 说 ， 做 到 这 些 还 十 不 够 的 ， 因 为 


优秀 的 架构 师 必须 在 做 完整 个 架构 之 后 ， 表 针对 该 架构 给 出 风险 评估 
与 部 分 测试 用 例 ， 下 面 也 将 来 逐一 分 析 一 下 。 


目 和 完 是 风险 评 佑 ， 由 于 我 们 所 做 的 最 终 项 目 古 运行 在 移动 平台 上 
的 ， 所 以 对 于 移动 平台 的 雁 片 化 设备 (尤其 是 Android 平 台 的 碎片 化 更 
加 严重 ) 这 一 特点 ， 必 须要 有 足够 多 的 设备 作为 测试 目标 ， 以 保证 没 
有 兼容 性 方面 的 问 题 ， 设 备 所 述 的 平台 架构 也 应 该 履 盖 到 arm 、 
armv7、arm64 等 平台 。 然 后 必须 要 测试 性 能 问题 ， 性 能 包括 CPU 消 
耗 、 内 存 占用 、 耗 电量 与 发 热量 ， 而 针对 这 些 风 险 ， 在 这 一 期 项 目 中 
可 能 会 有 一 些 问题 无 法 得 到 解决 ， 因 此 我 们 的 长 期 计划 就 应 该 在 这 些 
方面 进行 改进 。 其 实 ， 目 前 来 说 最 大 的 风险 束 是 软件 解码 这 部 分 ， 因 
此 从 长 期 来 看 ， 需 要 有 硬件 解码 的 替代 方案 。 


对 于 测试 用 例 ， 我 们 应 该 从 以 下 几 个 方面 进行 测试 ， 首 先是 输入 
模块 ， 包 括 协议 层 (网 络 资源 、 本 地 资源 ) 、 封 装 格式 (FLV、MP4、 
MOV、AVI 等 ) 、 编 码 格式 (H264、AAC、WAV) 等 ， 其 次 是 音 视 频 
同步 模块 ， 应 该 在 低 网 速 的 条 件 下 观看 网 络 资源 的 对 齐 程 度 ， 最 后 是 
两 个 输出 模块 ， 测 试 应 该 要 和 覆盖 iOS 系 统 和 Android 系 统 的 大 部 分 系统 
ee EO 


完成 了 风险 评估 和 基本 的 测试 用 例 之 后 ， 至 此 我 们 的 染 构 算是 比 
较 完 善 了 ， 接 下 来 会 逐一 实现 每 个 模块 。 


5.2 ”解码 模块 的 实现 

本 贡 先 来 介绍 输入 模块 的 具体 实现 ， 即 类 图 ( 见 图 5-2) 中 的 
VideoDecoder 类 的 实现 ， 前 面 在 讨论 技术 定型 的 时 候 已 经 说 过 ， 我 们 会 
直接 使 用 FFmpeg 开 源 库 来 负责 输入 模块 的 协议 解析 、 封 装 格 式 白 分 、 
解码 操作 等 行为 ， 整 体 流程 如 图 5-3 所 示 。 


目 和 完 ， 来 看 一 下 整体 的 运行 流程 ， 整 个 运行 流程 分 为 以 下 几 个 阶 


1) 建立 连接 、 准 备 资源 阶 段 。 
2) 不 断 读 取 数据 进行 解 封装 、 解 码 、 处 理 数据 阶段 。 
3) 释放 资源 阶段 。 


以 上 融 是 输入 器 的 整体 流程 ， 其 中 第 二 个 阶段 会 是 一 个 循环 ， 并 
且 放 在 单独 的 线程 中 来 运行 ， 由 于 具体 的 API 调 用 已 经 在 前 面 章节 中 做 
过 详细 的 介绍 ， 并 且 在 本 章 的 代码 仓库 中 也 可 以 找到 对 应 的 源码 ， 
此 这 里 就 不 再 罗列 源码 了 ， 而 是 具体 来 看 一 下 这 个 类 中 几 个 重要 的 接 
口 是 如 何 设计 与 实现 的 。 


av_read_ frame 


avformat_ open_input 


av_find_stream_info Packet is 


Video? Audio 


avcodec_ decode avcodec_ decode 
_audio4 _Video2 


Success 


Open_lnput 


Handle Audio Handle Video 


Stop 
EOF 9 
Free Packet 


Release Resource 


图 5-3 


先 来 看 openFile 接 口 的 具体 实现 ， 该 接口 主要 负责 建立 与 媒体 资源 
的 连接 通道 ， 并 且 分 配 一 些 全 局 需要 用 到 的 资源 ， 将 建立 连接 的 通道 
与 分 配 资源 的 结果 返回 到 调用 端 。 在 此 过 程 中 ， 首 先是 与 媒体 资源 建 
立 连 接 通 道 ， 然 后 找 出 该 资源 所 包含 的 流 的 信息 (其 实 是 对 应 的 各 个 
Stream 的 MetaData， 比 如 声音 轨 的 声 道 数 、 采 样 率 、 表 示 格 式 或 者 视频 
轨 的 宽 、 高 、fps 等 ) 。 如 果 是 网 络 资源 ， 那 么 在 找 出 流 信息 失败 的 时 
候 可 以 进行 重 试 (具体 的 重 试 逻辑 可 以 根据 不 同 的 业务 场景 进行 设 
置 ， 在 我 们 的 代码 中 设置 的 是 重 试 3 次 的 策略 ) 。 在 找 出 流 信 息 的 这 一 
阶段 需要 使 用 到 前 面 建立 起 来 的 连接 通道 ， 并 有 日 FFmpeg 提 供 的 找 出 流 
信息 (av_find_stream_info) 的 API 其 实 是 可 以 设置 参数 来 控制 方法 的 
执行 时 间 的 。 对 于 本 地 资源 ， 该 过 程 寻找 MetaData 是 很 快 的 ， 不 过 ， 
如 果 是 网 络 资源 ， 那 就 需要 一 段 时 间 了 。 第 3 章 中 已 经 介绍 过 
find_stream_info 函 数 的 内 部 实现 ， 因 为 会 发 生 实际 的 解码 行为 ， 所 以 
解码 的 数据 越 多 ， 所 花费 的 时 间 也 会 越 长 ， 对 应 得 到 的 MetaData 也 会 
越 准确 ， 对 此 ， 一 般 是 通过 设置 probesize 和 max_analyze_duration 这 两 
个 参数 来 给 出 探测 数据 量 的 大 小 和 最 大 的 解析 数据 的 长 度 ， 其 值 常 设 
置 为 50x1024 和 75000， 如 果 达 到 了 设置 的 值 却 还 没有 解析 出 对 应 的 视 


频 流 和 音频 流 的 MetaData， 那 么 就 返回 失败 ， 紧 接着 会 进入 重 试 俩 
略 ， 如 果 可 以 解析 到 束 将 对 应 的 流 信息 填充 到 对 应 的 结构 体 中 。 在 找 
出 对 应 的 流 信 息 之 后 ， 接 下 来 整 古 要 打开 每 个 流 的 解码 器 (有 了 时 声音 
有 两 路 流 ， 有 的 播放 万 中 可 以 允许 切换 ， 束 像 我 们 之 前 所 说 的 ffplay 束 
文 持 市 入 参数 进行 选择 ，VLC 播 放 句 可 以 实时 切换 ， 本 项 目 中 只 选择 
第 一 个 音频 流 ) 。 最 后 ， 对 于 每 个 流 都 要 分 配 一 个 AVFrame 作 为 解码 之 
后 数据 存放 的 结构 体 ， 对 于 音频 流 ， 需 要 额外 分 配 一 个 重 采样 的 上 下 
文 ， 对 解码 之 后 的 音频 格式 进行 重 采 样 ， 使 其 成 为 我 们 需要 的 PCM 格 
式 ， 这 里 仅 进行 资源 分 配 ， 具 体 的 解码 和 转换 行为 后 续 再 讲 。 


其 次 是 decodeFrames 接 口 的 实现 ， 该 接口 主要 负责 解码 音 视频 压缩 
数据 成 为 原始 格式 ， 并 且 封 装 成 为 自 定 义 的 结构 体 ， 最 终 全 部 放 到 一 
个 数组 中 ， 然 后 返回 给 调用 端 。 首 先 需 要 读 取 一 个 压缩 数据 帧 ， 对 应 
于 FFmpeg 里 面 的 AVPacket 结 构 体 ， 对 此 ， 前 文中 也 有 过 详细 的 介绍 ; 
对 于 视频 帧 ， 一 个 AVPacket 焉 是 一 幅 视 频 帧 ， 对 于 首 频 帧 ， 一 个 
AVPacket 有 可 能 包含 多 个 音频 帧 ， 所 以 对 于 一 个 AVPacket 浏 定 了 类 型 
(音频 类 型 还 是 视频 类 型 ) 之 后 ， 其 所 调用 的 解码 方法 是 不 一 样 的 ， 
视频 部 分 仅 需要 解码 一 次 ， 而 音频 部 分 则 需要 判定 该 AVPacket 里 面 的 
压缩 数据 是 否 已 被 全 部 消耗 干净 了 ， 并 以 此 作为 结束 的 条 件 。 解 码 结 
束 之 后 ， 需 要 提取 出 对 应 的 裸 数 据 填充 到 我 们 自 定义 的 结构 体 ， 并 全 
部 存 入 数组 中 ， 然 后 返回 给 外 界 调用 端 ， 为 什么 要 这 么 做 呢 ? 因为 我 
们 不 希望 向 外 界 歇 露 Input 模 块 内 部 所 使 用 的 技术 细节 ， 即 不 希望 癌 客 
户 端 代码 暴露 其 中 使 用 的 到 底 是 FFmpeg 的 解码 器 麻 还 是 硬件 解码 器 或 
考 是 其 他 的 解码 器 等 细节 。 所 以 解码 之 后 ， 需 要 封装 成 自 定 义 的 结构 
体 的 AudioFrame 和 VideoFrame， 具 体 如 何 操 作 ， 前 面 章 节 中 也 已 经 提 
到 过 ， 或 者 直接 查看 源码 也 可 以 了 解 。 


这 里 有 一 点 比较 特殊 的 是 ， 如 果 首 频 或 者 视频 解码 出 来 的 表示 方 

式 与 我 们 预期 的 表示 方式 不 一 样 ， 那 么 就 需要 做 个 转换 。 对 于 音频 和 

a FFmpeg 分 别提 供 了 不 同 的 API 来 完成 转换 操作 ， 具 
I 不 。 


.对 于 音频 的 格式 转换 ，FFmpeg 提 供 了 一 个 libswresample 库 ， 开 发 
者 只 需要 把 原始 音频 的 格式 (包括 声 道 、 采 样 率 、 表 示 格 式 ) 和 目标 
音频 的 格式 (包括 声 道 、 采 样 率 、 表 示 格 式 ) 传递 给 这 个 库 的 初始 化 
上 下 文 方法 (swr_alloc_set_opts) ， 束 可 以 构造 出 一 个 重 采 样 上 下 文 ， 
然后 调用 swr_convert 将 解码 需 输 出 的 AVFrame 传 递 进来 ， 那 么 重 采 样 之 


后 的 数据 就 是 开发 者 所 期 望 的 首 频 格式 的 数据 了 ， 最 终 使 用 完毕 之 后 
再 调用 swr_free 方 法 即 可 释放 挥 重 末 样 上 下 文 。 


.对 于 视频 帧 的 格式 转换 ，FFmpeg 提 供 了 一 个 libswscale 的 库 ， 用 于 
转换 视频 的 裸 数 据 的 表示 格式 ， 如 果 原 始 视频 的 裸 数 据 其 表示 格式 不 
是 YUV420P， 那 么 就 需要 使 用 该 库 来 将 非 YUV420P 格 式 的 视频 数据 转 
换 为 YUV420P 格 式 。 转 换 方 式 也 很 帘 单 ， 就 是 把 源 的 格式 (包括 视频 
宽 、 高 、 表 示 格 式 ) 和 目标 的 格式 〈 包 括 视 频 宽 、 高 、 表 示 格 式 ) 传 
递 给 该 库 的 获取 上 下 文 方法 (sws_getCachedContext) ， 以 构造 出 转换 
视频 的 上 下 文 ， 然 后 在 需要 使 用 的 时 候 调用 sws_scale 将 解码 器 输出 的 
AVFrame 传 递 进来 ， 那 么 转换 之 后 的 视频 数据 就 存在 于 AVPicture 结 构 
体 里 面 了 ， 最 终 我 们 可 以 从 AVPicture 里 面 再 提取 出 对 应 的 数据 封装 到 
. 结构 体 中 ， 使 用 完毕 之 后 调用 sws_freeContext 来 销毁 掉 该 转换 


销毁 资源 阶段 的 实现 ， 与 打开 流 阶段 恰恰 相反 ， 首 先 要 销 或 掉 音 
频 相 关 的 资源 ， 包 括 分 配 的 AVFrame 以 及 音频 解码 器 (如 果 分 配 了 重 采 
样 上 下 文 与 重 采样 的 buffer， 那 么 也 需要 销毁 掉 ) ; 然后 再 销毁 掉 视 频 
的 相关 资源 ， 包 括 分 配 的 AVFrame 与 视频 解码 器 《如 果 分 配 了 格式 转换 
上 下 文 与 转换 后 的 AVPicture， 那 么 也 需要 销毁 掉 ) ; 最 后 断 开 连接 通 
道 ， 最 终 所 有 的 资源 都 销毁 挥 了 。 


超时 设置 


在 FFmpeg 的 API 中 ， 有 一 个 判断 超时 的 设置 ， 如 果 资 源 是 网 络 上 
的 媒体 文件 ， 那 么 该 设置 将 会 非常 有 用 ， 首 先 要 在 建立 连接 通道 之 前 
为 AVFormatContext 类 型 的 结构 体 的 interrupt_callback 变 量 赋值 即 设置 回 
调 函 数 ， 接 下 来 FFmpeg 将 在 以 后 需要 用 到 该 连接 通道 读 取 数 据 的 时 候 

(寻找 流 信息 阶段 、 实 际 的 read_frame 阶 段 ) 由 另外 一 个 线程 调用 开发 
者 设置 的 这 个 回调 函数 ， 询 问 是 否 达到 超时 的 条 件 ， 如 采 返 回 1 则 代表 
超时 ，FFmpeg 会 主动 断 开 该 连接 通道 ， 返 回 0 则 代表 不 超时 ，FFmpeg 
则 不 进行 其 他 的 任何 处 理 。 所 以 如 果 网 络 情况 不 好 的 话 ， 在 我 们 天 闭 
资源 的 时 候 回 有 可 能 会 出 现 阻 赛 很 长 时 间 的 情况 ， 所 以 开发 者 可 以 在 
并 且 可 以 很 快 关 闭 抒 连接 通道 ， 然 后 释放 近 整 

上 资源 了 。 


5.3 ”音频 播放 模块 的 实现 


本 世 就 来 介绍 音频 播放 模块 的 实现 ， 即 类 图 (图 5-2) 中 的 
AudiooOutput 类 的 实现 ， 这 一 部 分 的 实现 对 于 Android 和 iOS 平 台 其 实 是 
不 同 的 ， 第 4 章 中 已 经 详细 介绍 了 OpenSL ES 和 AudioUnit 的 使 用 ， 这 里 
面 将 会 结合 现在 的 这 个 项 目 再 来 具体 地 调整 一 下 其 实现 结构 。 


5.3.1 _ Android 平台 的 音频 洽 桨 


Android 平 台 上 使 用 OpenSL ES 进行 音频 的 泻 染 ， 首 先 要 建立 
AudioOutput 类 ， 按 照 之 前 的 架构 设计 ， 需 要 在 该 类 中 定义 一 个 回调 函 
数 ， 让 外 界 来 实现 该 函数 ， 用 来 为 此 模块 填充 所 需要 播放 的 音频 PCM 
数据 ， 所 以 该 回调 函数 定义 如 下 : 


typedef int(*audioPlayerCallback)(byte* , size t, void* ctx); 


该 男 数 的 第 一 个 参数 需要 外 界 填 充 PCM 数 据 的 缓冲 区 ， 第 二 个 参 
数 征 该 缓冲 区 的 大 小 ， 第 三 个 参数 是 客户 端 代码 目 己 填充 的 上 下 文 对 
象 “由 于 C++ 中 的 回调 函数 是 静态 的 函数 ， 所 以 要 传递 对 象 目 身 作为 
该 上 下 文 对 象 ， 以 便 被 调用 的 时 候 可 以 将 该 上 下 文 对 象 强制 转换 成 为 
目标 对 象 ， 来 访问 对 象 中 的 属性 以 及 方法 ) 。 


接 下 来 ， 就 来 具体 实现 AudioOutput 类 中 的 几 个 接口 方法 ， 其 实 面 
回 对 象 的 特征 之 一 就 是 封装， 即将 类 内 部 的 具体 实现 细节 进行 封装 ， 
对 外 提供 接口 ， 用 来 完成 客户 端 代 码 想 要 该 类 完成 的 所 有 行为 。 所 以 
这 几 个 接口 肯定 不 需要 暴露 AudioOutput 内 部 到 底 是 使 用 OpenSL ES 来 
实现 的 音频 播放 还 是 AudioTrack 来 实现 的 播放 ， 我 们 现在 使 用 OpenSL 
ES 实现 音频 播放 ， 如 果 以 后 还 有 一 些 特殊 的 需求 ， 那 么 可 以 换 成 
AudioTrack 或 者 其 他 的 实现 方式 ， 但 是 对 于 外 界 的 接口 以 及 回调 函数 
是 不 会 改变 的 。 这 对 于 整个 系统 的 扩展 性 以 及 维护 性 都 是 非常 重要 
的 ， 其 实 前 面 VideoDecoder 不 同 客 户 端 代码 又 露 AVFrame， 而 是 骏 露 
自己 封装 的 VideoFrame 或 者 AudioFrame 结 构 体 ， 道 理 是 一 样 的 。 那 么 
下 面 就 来 实现 第 一 个 接口 。 


(1) 初始 化 方法 


传 入 的 参数 吏 是 声 道 数 、 采 样 率 、 表 示 格 式 、 回 调 函 数 以 及 回调 
函数 的 上 下 文 对 象 ， 返 回 值 就 是 OpenSL ES 是 否 可 以 正常 完成 初始 
化 ， 对 于 具体 的 OpenSL ES 是 如 何 初 始 化 的 此 处 将 不 再 性 述 ， 因 为 第 4 
草 中 已 经 花费 了 很 大 的 篇 幅 来 讲解 这 点 。 核 心 流程 中 有 一 步 是 为 
audioPlayerBufferQueue 设 置 回调 函数 ， 也 就 是 说 ， 当 OpenSL ES 需要 
数据 进行 播放 的 时 候 会 回调 该 函数 ， 由 开发 者 来 填充 PCM 数 据 ， 而 此 


时 我 们 在 第 一 步 中 定义 的 回调 函数 束 有 用 了 ， 此 处 可 调用 该 回调 函数 
来 填充 音频 裸 数 据 ， 然 后 调用 audioPlayerBufferQueue 的 Enqueue 方 法 ， 
把 客户 端 代码 填充 过 来 的 PCM 数 据 放 到 OpenSL ES 的 BufferQueue 中 
去 o 


(2) 暂停 和 继续 播放 方法 
上 面 的 步骤 在 初始 化 OpenSL ES 的 时 候 ， 已 经 获得 了 


audioPlayerObject 中 的 play 接 口 ， 这 里 只 需要 设置 playState 束 可 以 了 ， 
代码 如 下 : 


int state = play ? SL_PLAYSTATE_ PLAYING : SL_PLAYSTATE_PAUSED; 
(*audioPlayerPlay)->SetPplayState(audioplayerPlay, state); 


(3) 停止 方法 


首先 应 暂停 现在 的 播放 ， 然 后 最 重要 的 一 步 束 是 设置 一 个 全 局 的 
状态 ， 以 保证 如 果 再 有 audioPlayerBufferQueue 的 回调 函数 需要 调用 的 
时 候 ， 不 需要 再 进行 数据 填充 ， 最 好 再 调用 usleep 方 法 来 暂停 一 段 时 
则 (比如 50ms) ， 以 使 得 buffer 绥 冲 区 里 面 的 数据 全 部 播放 完毕 ， 最 
终 再 调用 OpenSL ES 的 API 销 毁 所 有 的 资源 ， 包 括 audioPlayerObject 与 
outputMixObject ° 


5.3.2 ”iOS 平台 的 首 频 洽 梁 


在 iOS 平 台 ， 可 使 用 AudioUnit (AUGraph 封 装 的 实际 上 就 是 
AudioUnit) 来 泻 染 音频 ， 类 似 于 Android 平 台 的 实现 ， 这 里 也 要 有 一 个 
类 似 于 回调 函数 的 形式 来 要 求 客 户 端 代码 填充 音频 的 PCM 数 据 。 相 比 
较 于 回调 函数 ，OC 中 的 利用 实现 是 定义 一 个 协议 (Protocol) ， 由 客户 
问 代 码 实 现 该 协议 ， 并 重 写 协 议 里 面 定 义 的 方法 ， 下 面 束 来 看 看 这 个 
Protocol 的 定义 : 


@protocol FillDataDelegate <NSObject> 
- (NSInteger) fillAudioData: (SINnt16*) sampleBuffer 
numFrames: (NSInteger)frameNum numChannels: (NSInteger)channels; 
@end 


其 中 ， 第 一 个 参数 就 古 要 填充 的 缓冲 区 ， 第 二 个 参数 是 该 级 促 区 
中 有 多 少 个 音频 上 闫 ， 第 三 个 参数 是 声 道 效 。 客 户 端 代码 在 实现 中 要 按 
照 由 的 个 数 和 声 道 数 来 填充 该 缓冲 区 。 其 实 DC 中 的 这 种 Protocol 方 式 会 
更 加 地 面向 对 象 ， 证 开发 者 能 够 更 加 合理 地 实现 代码 ， 用 客户 端 代码 
来 实现 这 个 协议 就 意味 着 需要 承担 该 协议 所 要 求 的 职责 ， 比 起 C++ 的 回 
和 函数 OC 语 言 的 这 种 写法 会 更 加 地 面向 对 象 ， 读 者 可 以 目 行 体会 一 


然后 是 该 类 的 初始 化 方法 ， 传 入 包括 声 道 数 (NSInteger 

channels) 、 采 样 率 (NSInteger sampleRate) 、 采 样 的 表示 格式 

(NSInteger bytesPerSample) ， 以 及 具体 的 所 规定 的 协议 实现 的 对 象 

(id<FilleDelegate>fillAudioDelegate) 。 在 该 方法 的 实现 中 首先 需要 构 
造 一 个 AVAudioSession， 然 后 为 该 session 设 置 用 途 类 型 以 及 采样 率 等 ; 
接 下 来 需要 设置 音频 被 中 断 的 监听 器 ， 以 方便 应 用 程序 在 特殊 情况 下 
也 可 以 给 出 相应 的 处 理 ， 最 后 就 是 核心 流程 一 一 构造 AUGraph， 用 来 
实现 音频 播放 ， 这 个 具体 的 流程 已 经 在 前 面 的 章节 中 详细 讲解 过 了 ， 
这 里 需要 注意 的 是 ， 应 配置 一 个 ConvertNode 将 客户 端 代码 填充 的 
SInt16 格 式 的 音频 数据 转换 为 RemoteIONode 可 以 播放 的 Float32 格 式 的 
音频 数据 (采样 率 、 声 道 数 以 及 表示 格式 应 对 应 上 ) ， 这 一 点 是 非常 
关键 的 ， 当 然 需要 为 ConvertrNode 配 置 上 InputCallback， 在 InputCallback 
的 实现 中 调用 Delegate 的 filAudioData 方 法 ， 让 客户 端 代码 填充 数据 ， 
配置 好 整个 AudioGraph 之 后 ， 调 用 AUGraphInitialize 方 法 来 初始 化 整个 


AUGraph。 最 终 构 造 出 来 的 AUGraph 以 及 其 与 客户 端 代码 的 调用 关系 
如 图 5-4 所 示 。 


FillDataDelegate 


AUGraph 


VideoPlayerController * SetinputCallback ConvertNode RemotelO 


图 5-4 


接 下 来 是 play 方 法 ， 该 方法 的 实现 就 非常 简单 了 ， 直 接 调 用 
AUGraphStart 方 法 ， 启 动 该 Graph 就 可 以 了 ， 一 旦 启动 了 之 后 ， 就 会 从 
RemoteIO 这 个 AudioUnit 开 始 播放 音频 数据 ， 如 果 需 要 音频 数据 ， 怠 向 
它 的 前 一 级 AudioUnit 即 ConvertNode 去 获取 数据 ， 而 ConvertNode 则 会 
寻找 自己 的 InputCallback， 在 InputCallback 的 实现 中 其 将 从 delagate 〈 即 
VideoPlayerController) 处 获取 数据 ， 然 后 就 癌 实现 该 Protocol 的 客户 端 
代码 中 填充 数据 ， 最 终 就 可 以 播放 出 来 了 。 


至 于 pause 方 法 ， 其 实现 束 更 简单 了 ， 直接 调用 AUGraphStop 方 
法 ， 这 样 就 可 以 停止 AUGraph 的 运行 ， 声 首 自 然 束 不 会 播放 出 来 了 。 


最 后 是 销毁 方法 ， 在 销毁 方法 中 需要 停止 AUGraph， 然 后 调用 
AUGraphClose 方 法 关闭 AUGraph， 并 移 除 AUGraph 里 面 所 有 的 Node， 
最 终 调用 DisposeAUGraph， 这 样 就 可 以 彻底 销毁 掉 整 个 AUGraph 了 。 


5.4 画面 播放 模块 的 实现 


本 贡 将 介绍 视频 (画面 ) 播放 模块 的 实现 ， 即 类 图 ( 见 图 5-2) 中 
的 VideoOutput 类 的 实现 ， 这 部 分 的 实现 也 是 依赖 于 平台 的 ， 虽 然 原 理 
上 使 用 的 都 是 OpenGL ES， 但 是 对 于 不 同 的 平台 其 实现 也 是 不 同 的 ， 
第 4 草 中 已 经 详细 地 讲解 了 具体 的 使 用 实例 ， 下 面 束 结合 该 项 目 再 来 调 
整 一 下 具体 结构 。 


5.4.1 Android 平 台 的 视频 演 梁 


前 面 提 到 过 ， 无 论 是 在 哪 一 个 平台 上 使 用 OpenGL ES 泻 染 视频 的 
画面 ， 都 需要 单独 开辟 一 个 线程 ， 并 且 为 该 线程 绑 定 一 个 OpenGL ES 
的 上 下 文 ，Android 平 台 肯 定 也 不 例外 ， 由 于 是 在 Native 层 进行 OpenGL 
ES 的 开发 ， 所 以 这 里 首先 选用 线程 模型 ， 前 面 的 章节 中 ， 笔 者 曾经 分 
析 过 各 种 线程 模型 的 优 缺 点 ， 所 以 这 里 将 直接 选用 POSIX 线 程 模型 即 
PThread。 在 开始 实现 初始 化 函数 之 前 ， 需 要 移 定 义 一 个 回调 函数 ， 当 
VideoOutput 模 块 需 要 洽 染 视频 帧 的 时 候 ， 束 调用 该 回调 函数 获取 需要 
浑 染 的 视频 帧 ， 然 后 再 进行 真正 的 泻 染 ， 回 调 函 数 的 代码 原型 如 下 : 


typedef int (*getTextureCallback)(VideoFrame** texture, void* ctx); 


该 男 数 的 参数 列表 中 ， 第 一 个 就 是 要 获取 的 视频 巾 ， 第 二 个 是 回 
调 画 数 的 上 下 文 ， 返 回 值 为 int 类 型 (当成 功 获取 到 一 帧 视频 帧 之 后 返 
人 否则 返回 负 值 ) 。 接 下 来 再 来 看 一 下 初始 化 函数 的 实 
下 o 


对 于 初始 化 函数 ， 传 入 的 第 一 个 参数 是 ANativeWindow 类 型 的 指 
针 ， 该 Window 实 际 上 是 从 Java 层 传递 过 来 的 一 个 Surface 中 构造 出 来 
的 ， 而 Java 层 的 这 个 Surface 束 是 从 SurfaceView 的 onSurfaceCreated 生 命 
周期 方法 中 的 SurfaceHolder 中 获取 出 来 的 。 第 二 个 和 第 三 个 参数 则 是 
绘制 的 View 的 宽 和 高 ， 第 四 个 参数 是 获取 视频 帧 的 回调 函数 以 及 回调 
函数 的 上 下 文 对 象 。 初 始 化 函数 的 实现 如 下 ， 首 先 创 建 一 个 线程 作为 
OpenGL ES 的 泻 染 线程 ， 线 程 执行 的 第 一 个 步骤 了 驶 是 初始 化 OpenGL 
ES 环境 ， 它 会 利用 EGL 构 建 出 OpenGL ES 的 上 上下文， 并且 利 用 
ANativeWindow 构 造 出 EGLDisplay 作 为 显示 目标 ， 然 后 利用 
vertexShader 和 fragmentShader 构 造 出 一 个 Program 。 


VertexShader 负 责 顶 点 的 操作 ， 其 代码 如 下 : 


static char* OUTPUT_VIEW_VERTEX_SHADER = 
"attribute vec4 vPosition,; \n" 
"attribute vec4 vTexCords,; \n" 
"varying vec2 yuvTexCoords; \n" 
mh \n" 


"void main() { \n" 


yuvTexCoords = vTexCords.xy; \n" 
gl1_Position = vPosition,; \n" 
" Nn'" 


VertexShader 中 直接 将 顶点 赋值 给 g]_Position， 然 后 将 纹理 坐标 传 
递 给 FragmentShader， 代 码 具 体 如 下 : 


static char* YUV_FRAME_FRAGMENT_SHADER = 


"varying highp vec2 yuvTexCoords; \n" 
"uniform sampler2D s_texture_y; \n" 
"uniform sampler2D s_texture_u; \n" 
"uniform sampler2D s_texture_v; \n" 
"void main(void) \n" 
\n" 
highp float y = texture2D(s_texture y, yuvTexCoords).r; \n" 
highp float U = texture2D(s_texture u, yuvTexCoords).r - 0.5; \n" 
highp float v = texture2D(s_texture v, yuvTexCoords).r - 0.5; \n" 

\n" 

highp float r =y + 1.402 * v; \n" 
highp float g =y - 0.344 * Uu- 0.714 * Vv; \n" 
highp float b =y + 1.772 * u; \n" 
gl1_FragColor = vec4(r,g,b,1.0); \n" 

} \n",; 


由 于 视频 帧 是 由 YUV420P 的 数据 格式 表示 的 ， 所 以 在 
FragmentShader 中 需要 把 YUV 格 式 的 数据 转换 为 RGBA 格 式 的 数据 。 
惠 先 获取 对 应 的 YUV 格 式 的 数据 ， 因 为 UV 的 默认 值 是 127， 所 以 我 们 
这 里 要 减 去 0.5 (OpenGL ES 的 Shader 中 会 把 内 存 中 0~255 的 整数 数值 
换算 为 0.0~1.0 的 浮 点 数值 ) ， 然 后 按照 YUV 到 RGBA 的 计算 公式 将 
YUV 的 格式 转换 为 RGBA 的 格式 ， 而 这 就 是 FragmentShader 要 完成 事 


情 * 


然后 是 泻 染 方 法 ， 当 客户 端 代码 需要 VideoOutput 来 演 染 视频 幅 Hy 
时 候 ，VideoOutput 模 块 将 会 利用 回调 国 绑 多 状 生 视频 全 贞 ， 然 后 利用 第 
一 步 创 建 的 线程 中 构造 的 Program 执 行 泻 染 操作， 最 终 调用 
eglSwapBuffers 方 法 将 演 染 的 内 容 绘制 到 EGLSurface 中 去 (EGLSurface 
内 部 是 ANativeWindow，ANativeWindow 内 部 又 组 合 了 Surface， 而 
Surface 代 表 的 就 是 SurfaceView， 上 所 以 最 终 就 是 绘制 到 Java 层 的 
SurfaceView 中 去 ) 。 


最 后 是 销毁 方法 ， 也 必须 在 第 一 步 创建 鸭 线程 中 进行 ， 因 为 在 该 
线程 中 创建 了 OpenGL 上 下 文 、EGLDisplay 、Program 、 演 染 并 过 程 中 使 


用 到 的 纹理 对 象 、FrameBuffer 对 象 等 OpenGL ES 的 对 象 ， 所 以 必须 在 
该 线程 中 销毁 这 一 系列 的 对 象 。 


5.4.2 ”iOS 平台 的 视频 洽 染 


前 面 章节 中 曾 介绍 过 如 何在 iOS 平 台 上 使 用 OpenGL ES， 在 本 厄 的 
实现 中 ， 首 先 会 书写 一 个 VideoOutput 类 继承 目 UIView， 然 后 重 写 父 类 
的 layerClass 方 法 ， 并 且 返 回 CAEAGLLayer 类 型 ， 重 写 该 方法 的 目的 
是 该 UIView 可 以 被 OpenGL ES 进行 泻 染 ; 然后 在 初始 化 方法 中 ， 将 
OpenGL ES 绑 定 到 Layer 上 ，iOS 平 台 上 的 线程 模型 ， 采 用 
NSOperationQueue 来 实现 ， 也 就 是 把 OpenGL ES 的 所 有 操作 都 封装 在 
NSOperationQueue 中 来 完成 ， 为 什么 要 使 用 这 种 线程 模型 呢 ? 其实 笔 
者 在 很 多 设备 中 都 做 过 测试 ， 由 于 某 些 低 端 设备 ， 比 如 iPod、iPhone 
4， 在 一 次 OpenGL 的 绘制 中 耗费 的 时 间 可 能 会 比较 多 ， 如 果 使 用 的 是 
GCD 的 线程 模型 ， 那 么 会 导致 DispatchQueue 里 面 的 绘制 操作 越 积累 越 
多 ， 并 且 不 能 清 衬 ;而 使 用 NSOperationQueue， 则 可 以 在 检测 到 Queue 
里 面 的 Operation 超 过 定义 的 靖 值 (Threshold) 时 ， 清 空 最 久 的 
Operation， 只 保留 最 新 的 绘制 操作 ， 这 样 才 能 完成 正常 的 播放 。 前 面 
的 划 广 中 也 曾 提 到 过 ，iOS 平 台 有 一 个 比较 特殊 的 地 方 就 是 如 果 App 进 
入 后 台 之 后 ， 束 不 能 再 进行 OpenGL ES 的 泻 染 操作 ， 所 以 这 里 还 需要 
注册 两 个 监听 事件 : 一 个 是 WillResignActiveNotification， 即 当 App 从 
活跃 状态 变 为 非 活跃 状态 的 时 候 ， 或 者 即将 进入 后 台 的 时 候 ， 系 统 会 
调用 该 监听 事件 ;另外 一 个 是 DidBecomeActiveNotification， 即 当 App 
从 后 台 到 前 台 时 系统 会 调用 该 监听 事件 。 我 们 可 以 在 这 两 个 回调 方法 
中 控制 一 个 布尔 型 变量 : enableOpenGLRendererFlag ， 并 在 进入 后 人 台 
的 监听 事件 中 将 它 设 置 为 NO， 在 回 到 前 台 的 监听 事件 中 将 它 设 置 为 
YES。 在 线程 的 绘制 过 程 中 应 该 先 判 定 这 个 变量 是 否 为 YES， 是 YES 
则 进行 绘制 ， 否 则 不 进行 绘制 ， 其 整体 实现 结构 如 上 所 壕 。 


接 下 来 看 一 下 初始 化 方法 的 实现 ， 首 先 为 layer 设 置 属性 ， 然 后 初 
始 化 NSOperation-Queue， 并 且 将 OpenGL ES 的 上 下 文 构建 以 及 
OpenGL ES 的 演 染 Program 的 构建 作为 一 个 Block (可 以 理解 为 一 个 代 
码 块 ) 直接 加 入 到 该 Queue 中 。 该 Block 中 的 具体 行为 如 下 : 先 分 配 一 
个 EAGLContext， 然 后 为 该 NSOperationQueue 线 程 绑 定 OpenGL ES 上 
下 文 ， 接 着 再 创建 FrameBuffer 和 RenderBuffer， 将 RenderBuffer 的 
storage 设 置 为 UIView 的 layer 〈 就 是 前 面 提 到 的 CAEAGLLayer) ， 然 后 
再 将 FrameBuffer 和 RenderBuffer 绑 定 起 来 ， 这 样 绘制 在 FrameBuffer 上 
的 内 容 束 相当 于 绘制 到 了 RenderBuffer 上 ， 最 后 使 用 前 面 提 到 的 


VertexShader 和 FragmentShader 构 造 出 实际 的 泻 染 Program， 至 此 ， 初 始 
化 就 完成 了 。 


然后 是 关键 的 泻 染 方法 ， 这 里 先 判断 当 前 OperationQueue 中 
operationCount 的 值 ， 如 果 其 数目 大 于 我 们 规定 的 病 值 (一般 设置 为 2 
或 者 3) ， 则 说 明 每 一 次 绘制 所 花费 的 时 间 都 比较 多 ， 这 将 导致 很 多 绘 
制 的 延迟 ， 所 以 可 以 删除 掉 最 入 的 绘制 操作 ， 仅 仅 保 留 等 于 国 值 个 数 
的 绘制 操作 ， 然 后 将 本 次 绘制 操作 加 入 到 OperationQueue 中 ， 该 绘制 
操作 的 执行 已 经 委托 到 OperationQueue 的 线程 中 了 。 由 于 在 初始 化 的 
过 程 中 我 们 已 经 为 该 线程 绑 定 了 OpenGL ES 的 上 上 下文， 所 以 可 以 在 该 
线程 中 直接 进行 OpenGL ES 的 泻 染 操作 。 前 先 判 定 布尔 型 变量 
enableOpenGLRendererFlag 的 值 ， 如 果 是 YES， 残 绑 定 FrameBnuffer， 
然后 使 用 Program 进 行 绘制 ， 最 后 绑 定 RenderBuffer 并 且 调 用 
EAGLContext 的 PresentRenderBuffer 将 刚刚 绘制 的 内 容 显 示 到 layer 上 
去 ， 因 为 ljayer 就 是 UIView 的 layer， 所 以 能 够 在 UIView 中 看 到 我 们 刚刚 
绘制 的 内 容 了 。 


至 于 销毁 方法 ， 也 要 保证 这 步 操 作 是 放 在 OperationQueue 中 执行 
的 ， 因 为 涉及 OpenGL ES 的 所 有 操作 都 要 放 到 绑 定 了 上 下 文 环 境 的 线 
程 中 去 操作 。 具 体 实现 中 ， 首 先 要 释放 掉 Program， 然 后 释放 挥 
FrameBuffer 和 RenderBuffer， 最 后 将 本 线程 与 OpenGL 上 下 文 解除 绑 


mi 


Ra 


对 于 UIView 的 dealloc 方 法 ， 其 功能 主要 是 人 负责 回收 所 有 的 资源 ， 
首先 移 除 所 有 的 监听 事件 ， 然 后 清空 OperationQueue 中 未 执行 的 操 
作 ， 最 后 释放 掉 所 有 的 资源 。 至 此 该 VideoOutput 束 实现 完毕 了 。 


5.5 ”AVSync 模 块 的 实现 


本 而 将 介绍 首 视频 同步 模块 的 实现 ， 即 类 图 中 AVSynchronizer 类 
的 实现 ， 对 于 该 类 的 职责 ， 从 它 的 名 字 上 就 可 以 看 出 来 ， 主 要 是 用 于 
实现 首 视 频 同 步 的 ， 我 们 在 架构 设计 阶段 就 曾 说 过 ， 不 想 把 该 系统 拆 
得 太 细 ， 所 以 该 类 的 职责 还 包括 维护 解码 线程 ， 即 创建 、 暂 停 、 运 
行 、 销 毁 解 码 线 程 ， 基 于 以 上 分 析 ， 该 类 可 分 为 两 部 分 来 实现 ， 第 一 
0 
其 体 如 下。 


: 当 外 界 调用 该 模块 的 初始 化 方法 的 时 候 ， 根 据 要 打开 的 媒体 资源 
ee 并 且 将 解码 器 维护 为 一 个 全 局 变量 以 便 
百 续 


当 外 界 需 要 使 用 该 类 填充 音频 数据 的 时 候 ， 如 果 音 频 队列 中 已 存 
在 音频 则 直接 填充 即 可 ， 同 时 要 记录 下 该 音频 帧 的 时 间 崔 ， 如 条 音频 
队列 中 没有 音频 则 填充 至 数 据 。 


: 当 外 界 需 要 该 类 返回 视频 帧 的 时 候 ， 会 根据 当前 播放 的 音频 帧 时 
间 礁 找到 合适 的 视频 帧 并 返回 。 


当 外 界 调用 销毁 方法 的 时 候 ， 首 允 会 停止 解码 线程 ， 然 后 销毁 解 
码 锋 ， 最 后 再 销毁 音 视频 队列 。 


5.5.1 ”维护 解码 线程 


AVSync 模 块 开辟 的 解码 线程 扮演 了 生产 者 的 角色 ， 其 生产 出 来 的 
数据 所 存放 的 位 置 就 是 音频 队列 和 视频 队列 ， 而 AVSync 模 块 对 外 提供 
的 填充 首 频 数据 和 获取 视频 的 方法 则 扮演 了 消费 者 的 角色 ， 从 首 视 频 
队列 中 获取 数据 ， 其 实 这 就 是 标准 的 生产 者 消 费 者 模型 。 当 客户 端 代 
码 调 用 start 方 法 的 时 候 ， 就 应 该 利用 POSIX 线 程 模型 来 创建 一 个 解码 
线程 ， 并 且 让 该 解码 线程 开始 运行 ， 从 而 解码 音频 帧 和 视频 帧 ， 解 码 
出 来 的 音 视频 帧 要 转换 为 我 们 目 定义 的 结构 体 AudioFrame 和 
VideoFrame， 并 且 要 把 这 两 种 类 型 的 帧 分 别 放 入 音频 队列 和 视频 队列 
中 。 那 么 在 解码 线程 中 具体 应 该 如 何 调用 VideoDecoder (输入 模块 ) 
来 进行 解码 的 操作 呢 ? 其 实现 代码 具体 如 下 : 


while(isOnDecoding) { 
pthread mutex_lock(&videoDecoderLock); 
pthread_cond wait(&videoDecoderCondition, &videoDecoderLock); 
pthread mutex_unlock(&videoDecoderLock); 
isDecodingFrames = true; 
decodeFrames( ); 
isDecodingFrames = false,; 


上 述 代 码 在 该 线程 中 会 是 一 个 循环 ， 只 要 不 销毁 该 模块 (销毁 的 
时 候 会 把 全 局 变量 isOnDecoding 设 置 为 false) ， 就 会 一 直 运 行 该 循 
环 。 在 该 循环 内 部 首先 会 看 到 有 一 个 条 件 锁 ， 即 每 循环 一 次 之 后 职 会 
停 在 wait 的 地 方 ， 等 竺 signal 指 令 发 送 过 来 才 可 以 进行 下 一 次 解码 操 
作 ， 为 什么 要 这 样 安排 呢 ? 因为 播放 器 播放 的 视频 是 随时 间 逐 一 进行 
播放 的 ， 而 后 台 解 码 线程 没 必 要 将 视频 一 次 性 全 部 解码 完毕 并 放 入 队 
列 中 (一 个 原因 是 其 在 内 存 中 基本 上 存储 不 开 ， 因 为 视频 所 占用 的 空 
间 实 在 是 太 大 了 ; 第 二 个 原因 是 用 户 可 能 看 一 会 儿 束 不 看 了 了 人， 也 就 是 
说 我 们 解码 出 来 首 视 频 幅 就 都 作废 了 ， 没 必要 白白 浪费 CPU， 如 果 是 
网 络 资源 则 还 很 费 了 读 宽 ) ， 所 以 需要 将 解码 线程 设置 成 这 种 模式 。 
这 里 规定 两 个 值 : min_bufferDuration 和 max_bufferDuration ， 比 如 将 它 
们 分 别 设置 0.2sS 和 0.4s， 前 面 已 经 提 到 过 解码 线程 其 实 是 充当 了 生产 者 
的 角色 ， 每 调用 一 次 decodeFrames 方 法 时 都 会 将 两 个 队列 填充 至 
max_bufferDration 的 刻度 之 上， 然后 解码 线程 吏 会 进入 下 一 次 循环 ， 
就 在 上 面 代 码 中 的 wait 处 等 等 signal 指 令 。 而 当 消费 者 线程 每 消费 一 次 


数据 的 时 候 ， 我 们 都 会 判断 队列 中 所 有 视频 帧 的 长 度 古 否 在 
min_bufferDuration 刻 度 之 下 ， 如 有 果 是 在 该 刻度 之 下 ， 束 发 送 signal 指 令 
让 解码 线程 进行 解码 。 实 现代 码 具体 如 下 : 


bool isBufferedDurationDecreasedToMin = bufferedDuration <= minBufferedDuration,; 
if (isBufferedDurationDecreasedToMin && !isDecodingFrames) { 
int getLockCode = pthread mutex_lock(&videoDecoderLock); 
pthread_cond_signal(&videoDecoderCondition); 
pthread mutex_unlock(&videoDecoderLock); 


当 解 码 线 程 收 到 signal 指 令 之 后 ， 束 可 以 进行 下 一 次 解码 了 ， 如 此 
一 来 ， 伴 随 着 生产 者 线程 和 消费 者 线程 的 协同 工作 ， 整 个 视频 播放 颖 
忠 可 以 播放 出 视频 来 了 。 


还 有 一 点 需要 注意 的 是 ， 在 最 后 销毁 该 模块 的 时 候 ， 需 要 先 将 
isOnDecoding 变 量 设 置 为 false， 然 后 还 需要 额外 发 送 一 次 signal 指 令 ， 
让 解 引线 程 有 机 会 结束 ， 如 果 不 发 送 该 signal 指 令 ， 那 么 解码 线程 就 有 
可 能 一 直 wait 在 这 里 ， 成 为 一 个 僵尸 线程 。 


5.5.2” 音 视频 同步 


音 视 频 同步 的 党 略 在 前 文中 也 曾 提 到 过 ， 这 里 再 重点 介绍 一 下 ， 
音 视 频 同步 一 般 分 为 三 种 : 音频 回 视 频 同步 、 视 频 回 音频 同步 、 音 频 
视频 统一 向 外 部 时 钟 同步 。 在 第 3 章 学 习 FFmpeg 框 架 时 ， 也 学 习 过 
ffplay， 其 中 使 用 ffplay 播 放 视频 文件 的 时 候 ， 所 指定 的 对 齐 方式 网 是 
上 面 所 说 的 三 种 方式 ， 下 面 束 来 逐一 分 析 这 三 种 对 齐 方式 分 别 是 如 何 
实现 的 ， 以 及 各 目的 优 缺 点 。 


(1) 首 频 向 视频 同步 


先 来 看 一 下 这 种 同步 方式 是 如 何 实现 的 ， 音 频 同 视频 同步 ， 顾 名 
思 义 ， 就 是 视频 会 维持 一 定 的 刷 狐 频率 ， 或 者 根据 演 染 视频 帧 的 时 长 
来 决定 当前 视频 巾 的 泻 染 时 长 ， 或 者 说 视频 的 每 一 帧 肯定 可 以 全 部 泻 
染 出 来 ， 当 我 们 向 AudioOutput 模 块 填充 首 频 数据 的 时 候 ， 会 与 当前 泻 
染 的 视频 帧 的 时 间 礁 进行 比较 ， 这 个 差 值 如 采 不 在 病 值 的 范围 内 ， 整 
需要 做 对 齐 操作 ;， 如 采 其 在 病 值 范围 内 ， 那 么 就 可 以 直接 将 本 巾 首 频 
帧 填充 到 AudioOutput 模 块 ， 进 而 让 用 户 听 到 该 声音 。 那 如 果 不 在 靖 值 
范围 内 ， 又 该 如 何 进行 对 齐 操 作 呢 ? 这 束 需 要 我 们 去 调整 音频 帧 了 ， 
也 束 是 说 如 果 要 填充 的 音频 帆 的 时 间 崔 比 当 前 演 染 的 视频 央 的 时 间 鹤 
小 ， 那 就 需要 进行 跳 帧 操作 (上 有 具体 的 跳 帧 操作 可 以 是 加 快速 度 播放 的 
实现 ， 也 可 以 是 丢弃 一 部 分 音频 帧 的 实现 ，; 如 果 音 频 帧 的 时 间 戳 比 
当前 泻 染 的 视频 帧 的 时 间 故 大 ， 那 么 整 需 要 等 每 ， 具 体 实现 可 以 是 问 
AudioOutput 模 块 填 充 空 数据 并 进行 播放 ， 也 可 以 是 将 音频 的 速度 放 慢 
播放 给 用 户 听 ， 而 此 时 视频 帧 是 继续 一 帧 一 帧 进行 泻 染 的 ， 一 旦 视频 
的 时 间 礁 赶 上 了 首 频 的 时 间 礁 ， 束 可 以 将 本 帧 音频 巾 的 数据 填充 到 
AudioOutput 模 块 了 。 这 束 是 首 频 向 视频 同步 的 实现 ， 其 优点 束 是 视频 
可 以 将 每 一 帧 都 播放 给 用 户 看 ， 画 面 看 上 去 是 最 流畅 的 ， 但 是 首 频 就 
会 有 所 丢 帆 或 者 会 插入 静音 帧 ， 所 以 这 种 对 齐 方式 会 有 一 个 明显 的 缺 
点 ， 那 就 是 音频 有 可 能 会 加 速 (或 者 跳 变 ) 也 有 可 能 会 有 静音 数据 
(或 者 慢 速 播放 ) ， 如 有 果 变 速 系 数 不 太 大 ， 那 么 用 户 感知 可 能 不 太 强 
〈 但 是 如 果 系 数 变化 比较 大 那么 用 户 感 知 就 会 非常 强烈 了 ) ， 发 生 丢 
帧 或 者 插入 空 数据 的 时 候 ， 用 户 的 耳 永 是 可 以 明显 感觉 到 的 。 


(2) 视频 向 音频 同步 


再 来 看 一 下 视频 同音 频 同步 的 方式 是 如 何 实现 的 ， 这 与 上 面 提 到 
的 方式 恰好 相反 ， 由 于 不 论 是 哪 一 个 平台 播放 音频 的 引擎 ， 都 可 以 保 
证 播放 音频 的 时 间 长 度 与 实际 这 段 音频 所 代表 的 时 间 长 度 是 一 致 的 ， 
所 以 我 们 可 以 依赖 于 音频 的 顺序 播放 为 我 们 提供 的 时 间 崔 ， 当 客户 端 
代码 请 求 发 送 视频 帧 的 时 候 ， 会 先 计 算出 当前 视频 队列 头 部 的 视频 帧 
元 素 的 时 间 礁 与 当前 首 频 播放 帧 的 时 间 礁 的 差 值 。 如 末 在 病 值 范围 
内 ， 束 可 以 渔 染 这 一 巾 视 频 帧 ， 如 果 不 在 病 值 范围 内 ， 则 要 进行 对 齐 
操作 。 具 体 的 对 齐 操作 方法 就 是 : 如 果 当 前 队列 头 部 的 视频 帧 的 时 间 
稚 小 于 当前 播放 音频 帧 的 时 间 礁 ， 那 么 束 进 行 跳 帧 操作 ， 如 有 果 大 于 当 
前 播放 音频 帆 的 时 间 戳 ， 那 么 就 进行 等 待 〈 重 复 泻 染 上 一 帧 或 者 不 进 
行 泻 染 ) 的 操作 。 其 优点 是 音频 可 以 连续 地 播放 ， 人 缺点 是 视频 画面 有 
可 能 会 有 跳 帧 的 操作 ， 但 是 对 于 视频 画面 的 丢 帧 和 跳 帧 ， 用 户 的 眼睛 
征 不 太 容 易 分 辩 得 出 来 的 。 


(3) 统一 向 外 部 时 钟 同步 


这 种 策略 其 实 更 像 是 上 述 两 种 对 齐 方式 的 合体 ， 其 实现 就 是 在 外 
部 单独 维护 一 轨 外 部 时 钟 ， 我 们 要 保证 该 外 部 时 钟 的 更 新 是 按照 时 间 
的 增加 而 慢 慢 增加 的 ， 当 我 们 获取 音频 数据 和 视频 帆 的 时 候 ， 都 需要 
与 这 个 外 部 时 钟 进行 对 齐 ， 如 采 没 有 超过 半 值 ， 那 么 下 直接 返回 本 帧 
首 频 帧 或 者 视频 帆 ， 如 采 超 过 了 病 值 束 要 进行 对 齐 操作 。 具 体 的 对 齐 
操作 是 : 使 用 上 述 两 种 方式 里 面 的 对 齐 操 作 ， 将 其 分 别 应 用 于 音频 的 
对 齐 和 视频 的 对 齐 。 优 点 是 可 以 最 大 限度 地 保证 音 视频 都 可 以 不 发 生 
跳 帧 的 行为 ， 缺 点 是 如 果 探 制 不 好 外 部 时 钟 ， 极 有 可 能 引发 音频 和 视 
频 都 跳 帧 的 行为 。 


根据 人 眼睛 和 耳 朱 的 生理 构造 因素 ， 得 出 了 一 个 理论 ， 那 就 古人 
的 耳 赤 比 人 的 眼睛 要 敏感 得 多 ， 也 就 是 说 ， 如 有 果 音 频 有 跳 帧 的 行为 或 
者 填空 数据 的 行为 ， 那 么 我 们 的 耳 示 十 十 分 容易 察觉 得 到 的 ， 而 视频 
如 果 有 跳 帧 或 者 重复 泻 染 的 行为 ， 我 们 的 眼睛 其 实 不 容易 分 辨 出 来 。 
根据 这 个 理论 ， 我 们 所 实现 的 播放 器 将 采用 音 视频 对 齐集 略 的 第 二 种 
方式 ， 即 视频 向 普 频 对 齐 的 方式 。 


5.6 ”中 控 系 统 串 联 起 各 个 模块 


下 面 介绍 中 控 模 块 的 实现 ， 即 类 图 中 VideoPlayerController 类 的 实 
现 ， 这 一 部 分 其 实 是 将 上 面 提 人 到 的 各 个 模块 有 序 地 组 织 起 米 ， 让 单独 
运行 的 各 个 模块 可 以 协同 起 来 配合 工作 。 由 于 每 个 模块 都 有 各 目的 线 
程 在 运行 ， 所 以 对 于 这 部 分 代码 ， 必 须要 负责 好 各 个 模块 的 生命 周期 
的 维护 ， 否 则 极 易 产生 多 线程 的 问题 ， 下 面 束 分 为 三 个 阶段 来 讲解 该 
模块 ， 分 别 是 初始 化 、 运 行 和 销毁 三 个 阶段 。 


5.6.1 初始 化 阶段 


1.Android 平 台 


虽然 我 们 的 项 目 称 为 视频 播放 器 ， 但 即使 客户 端 代码 没有 提供 泻 
染 的 View， 播 放 絮 也 应 该 能 够 播放 出 声音 来， 而 这 是 一 个 比较 有 用 的 
功能 (在 一 些 产 品 中 可 以 为 用 户 提 供 非常 好 的 体验 ， 比 如 ， 在 直播 产 
品 中 秒 开 首 屏 、 在 一 些 视 频 播放 右 中 正在 播放 的 时 候 退 出 播放 界面 但 
还 是 有 声音 在 播放 、 在 切换 回来 时 画面 可 以 立即 泻 染 类 似 于 YouTube 
的 播放 界面 的 体验 ) ， 所 以 在 初始 化 阶段 必须 将 播放 右 的 初始 化 与 渔 
染 弄 面 的 初始 化 分 离开 来 。 如 上 述 分 机 ， 初 始 化 阶段 应 该 分 为 两 部 
分 : 一 部 分 征 播放 硕 的 初始 化 ， 另 外 一 部 分 是 泻 染 界面 的 初始 化 。 


自 先 来 看 播放 器 的 初始 化 ， 因 为 在 初始 化 的 过 程 中 需要 LO 操作 ， 
此 需要 调用 AVSync 模 块 打开 媒体 资源 ， 如 果 媒 体 资 源 是 本 地 资源 则 
还 好 ;， 如 果 是 网 络 资源 ， 则 建立 连接 的 时 间 就 不 确定 了 (因为 建立 连 
接 操作 是 阻塞 的 ， 直 到 建立 连接 成 功 之 后 才 会 返回 ) ， 所 以 这 里 必须 
要 开辟 一 个 线程 来 进行 初始 化 的 操作 ， 即 利用 PThread 开 辟 一 个 
initThread 出 来 。 在 这 个 线程 中 ， 移 实例 化 AVSynchronizer 对 象 ， 然 后 
调用 该 对 象 的 init 方 法 来 建立 与 媒体 资源 的 连接 通道 。 如 果 打 开 连 接 失 
败 ， 那 么 回调 客户 端 会 提示 打开 资源 失败 ;如 果 打 开 连 接 成 功 ， 则 根 
据 媒 体 资源 的 Channel、SampleRate、SampleFormat 以 及 
fillAudioDataCallback 回 调 函 数 和 对 象 本 里 来 初始 化 AudioOutput。 如 果 
可 以 初始 化 成 功 ， 则 代表 初始 化 步 又 可 以 完成 了 ， 然 后 直接 调用 
AVSync 模 块 的 start 方 法 以 及 AudioOutput 的 播放 方法 。 还 有 最 后 一 步 ， 
由 于 上 述 操 作 都 是 在 新 开启 的 线程 里 面 执行 的 ， 所 以 无 法 将 初始 化 成 
功 或 者 失败 以 及 一 系列 的 参数 返回 给 客户 端 ， 故 而 最 后 一 步 天 是 将 初 
台 化 成 功 与 否 回调 给 客户 端 对 象 ， 告 诉 客户 端 初始 化 播放 器 的 状态 ， 
至 此 播放 融 残 可 以 正常 地 播放 音频 了 ， 但 是 视频 呢 ? 


接 下 来 是 泻 染 界 面 初始 化 的 阶段 ， 如 果 客 户 端 调 用 层 觉 得 现在 这 
个 时 机 可 以 显示 视频 的 画面 部 分 了 ， 那 么 就 会 让 SurfaceView 进 行 显示 
操作 ， 按 照 SurfaceView 的 生命 周期 ， 应 该 会 调用 设置 Callback 的 
onSurfaceCreated 方 法 ， 也 就 是 调用 中 控 系 统 的 initVideoOutput 方 法 ， 
这 就 是 用 来 初始 化 泻 染 界 面 的 ， 这 里 会 直接 初始 化 VideoOutput 对 和 象 ， 
然后 用 传递 进来 的 ANativeWindow 对 象 与 界面 的 宽 和 高 以 及 获取 视频 


帧 的 回调 函数 来 初始 化 VideoOutput 对 象 。 以 上 就 是 初始 化 阶段 所 有 的 
执行 步骤 了 。 


2.iOS 平 台 


与 Android 平 台 不 同 的 是 ，iOS 的 播放 需 在 一 个 ViewController 中 ， 
所 以 整个 播放 器 的 中 控 系 统 就 是 ViewController， 从 而 播放 器 在 iOS 平 
台 上 的 实现 要 简单 一 些 ， 华 竟 不 需要 两 种 语言 的 交互 (Java 层 到 Native 
层 的 数据 和 指令 传递 ) ， 所 以 这 里 的 初始 化 就 是 整个 播放 器 的 初始 
化 。 还 记得 在 AVSync 模 块 中 定义 的 PlayerStateCallback 的 Protocol 吗 ? 
其 中 包含 如 下 两 个 方法 : 


- (void) openSucceed 
- (void) connectFailed; 


上 述 代 码 中 的 两 个 方法 分 别 是 在 初始 化 方法 执行 成 功 或 失败 时 ， 
回调 客户 端 代码 时 使 用 的 。 与 Android 平 台 类 似 ， 调 用 AVSync 模 块 放 
在 一 个 异步 线程 中 来 打开 连接 会 更 加 合理 ， 所 以 这 里 使 用 GCD 线 程 模 
型 ， 将 初始 化 的 操作 放 在 一 个 DispatchQueue 中 。 首 先 也 是 调用 AVSync 
模块 的 openFile 方 法 ， 如 宁可 以 打开 媒体 资源 连接 ， 则 继续 初始 化 
VideoOutput 对 象 。 还 记得 VideoOutput 实 际 上 是 一 个 继承 目 UIView 的 目 
定义 View 吗 ? 我 们 需要 把 该 View 加 入 到 ViewController 中 ， 但 是 当前 是 
在 一 个 子 线程 中 初始 化 的 ViewOutput 的 对 象 ， 所 以 我 们 必须 dispatch 到 
主线 程 中 ， 然 后 调用 如 下 代码 : 


[self.view insertSubview: videoOutput atIndex 0]; 


接着 还 是 在 子 线程 中 根据 媒体 文件 中 的 声 道 数 、 采 样 率 以 及 对 象 
本 身 (作为 实现 AudioOutput 类 中 声明 的 Protocol 的 实现 者 ) 来 初始 化 
AudiooOutput 对 象 ， 最 终 调用 AudioOutput 的 开始 播放 方法 。 由 于 上 述 
探 作 一 直 是 在 子 线程 中 执行 的 操作 ， 所 以 当 执 行 完 毕 之 后 ， 可 以 使 用 
前 面 提 到 的 playerStateCallback 来 回调 客户 端 代 码 ， 并 告知 客户 端 播放 
器 初 始 化 的 状态 ， 是 成 功 还 是 失败 。 


5.6.2 ”运行 阶段 
1.Android 平 台 


由 于 在 初始 化 阶段 已 经 开启 了 音频 输出 模块 (调用 了 AudioOutput 
对 象 的 start 方 法 ) ， 因 此 ， 在 OpenSL ES 中 将 目 己 缓冲 区 里 面 的 音频 播 
放 完 毕 之 后 ， 就 会 通过 回调 方法 立马 回调 到 中 控 模 块 ， 由 中 控 模 块 来 
填充 数据 ， 而 填充 首 频 的 方法 就 是 最 核心 的 实现 。 具 体 实现 如 下 ， 首 
先 会 判断 当前 播放 器 的 状态 ， 如 有 果 人 处 于 暂停 状态 束 不 会 再 癌 AVSync 模 
块 请 求 数据 ， 而 是 将 静 首 数据 〈 即 全 0 的 数据 ) 填充 到 OpenSL ES 并 播 
放 ; 当然 如 末 AVSync 已 经 被 销毁 了 或 者 解码 完毕 了 ， 那 么 也 要 将 空 数 
据 填充 到 OpenSL ES 并 播放 ;如果 上 述 情 况 都 不 满足 的 话 ， 就 需要 调 
用 AVSync 模 块 填 充 音 频数 据 的 方法 ， 竺 填充 了 这 一 帧 的 音频 数据 之 
后 ， 就 向 VideoOutput (视频 输出 模块 ) 发 送 一 个 指令 ， 让 VideoOutput 
模块 来 更 新 视频 画面 的 一 帧 ， 当 VideoOutput 模 块 收 到 该 指令 时 ， 就 可 
以 再 调用 自己 的 回调 方法 〈 由 于 在 初始 化 的 时 候 已 经 把 中 探 系统 的 回 
调 方法 传递 给 了 VideoOutput) ， 从 而 调用 到 VideoPlayerController 的 获 
取 视 频 帧 的 方法 ， 调 用 AVSync 模 块 的 获取 视频 帧 的 方法 之 后 ， 返 回 给 
视频 播放 模块 ， 并 将 最 新 的 一 帆 视 频 帧 更 新 到 画面 中 。 

在 运行 阶段 还 有 和 暂停 和 继续 播放 的 接口 实现 ， 在 Android 平 台 上 ， 
由 于 整个 播放 器 的 驱动 是 由 首 频 播放 模块 来 驱动 的 ， 所 以 仅 需 要 让 首 
频 播 放 模 块 和 暂停 和 继续 束 好 了 ， 所 以 这 一 块 的 实现 是 非常 简单 的 。 


2.iOS 平 台 


由 于 iOS 的 中 控 系 统 实现 了 AudioOutput 模 块 的 FillDataDelegate 这 
个 Protocol， 所 以 就 需要 实现 该 协议 里 面 填充 首 频 数据 的 方法 ， 而 实现 
该 方法 实际 上 就 是 运行 阶段 的 核心 控制 。 这 里 先 判断 AVSync 模 块 是 否 
播放 完成 或 者 播放 器 的 当前 状态 是 否 处 于 暂停 状态 ， 如 果 已 经 播放 完 
成 或 者 是 暂停 状态 了 ， 那 么 就 需要 填充 为 静音 数据 〈 即 全 0 的 数据 ) ， 
如 果 没 有 播放 完成 ， 则 调用 AVSync 模 块 的 获取 音频 帧 的 方法 ， 并 且 发 
送 一 个 指令 ， 让 VideoOutput 模 块 来 更 新 画面 数据 。 这 就 是 运行 中 的 最 
核心 的 部 分 了 ， 其 实 很 简单 ， 就 是 为 AudioOutput 模 块 填 充 数据 ， 并 且 
通知 VideoOutput 模 块 来 更 新 画面 。 


再 就 古 暂 集 和 继续 播放 ， 其 实现 与 Android 平 台 很 类 似 ， 当 外 界 调 
用 和 暂停 和 继续 的 时 候 ， 调 用 AudioOutput 模 块 的 暂停 和 继续 就 可 以 了 ， 
其 实 束 是 让 我 们 的 播放 器 驱动 端 来 暂停 和 继续 。 


5.6.3 ”销毁 阶段 


1.Android 平 台 


销毁 阶段 其 实 天 是 初始 化 阶段 的 逆 过 程 ， 首 移 应 该 中 断 媒 体 资源 
的 连接 通道 ， 可 调用 AVSync 模 块 的 interruptRequest 方 法 来 实现 ， 然 后 
再 来 看 一 下 初始 化 阶段 的 线程 有 没有 执行 结束 ， 如 果 没 有 执行 结束 则 
等 竺 它 的 结束 ， 所 以 这 里 需要 使 用 排 程 的 方法 pthread_join 等 待 初始 化 
线程 执行 结束 。 然 后 优先 停止 VideoOutput， 直 接 调用 VideoOutput 的 
stopOutput 方 法 ， 紧 接着 再 暂停 音频 输出 模块 ， 然 后 销毁 AVSync 模 
块 ， 该 模块 会 等 待 解码 线程 的 结束 并 且 销 毁 解 码 器 〈 输 入 模块 ) ， 最 
SR 这 样 就 可 以 销毁 掉 所 有 的 模块 


2.iOS 平 台 


根据 运行 阶段 的 介绍 我 们 可 以 知道 ， 由 于 音 视 频 对 齐 策略 的 影 
啊 ， 整 个 播放 过 程 其 实 是 由 音频 来 张 动 的 ， 所 以 在 销毁 阶段 肯定 需要 
首先 停止 音频 ， 所 以 这 里 首先 调用 AudioOutput 对 象 的 stop 方 法 ; 然后 
应 该 停止 AVSync 模 块 ， 由 于 该 模块 包含 了 解码 线程 ， 所 以 需要 断 开 和 输 
入 模块 的 连接 ， 这 里 首先 应 该 判断 输入 模块 打开 连接 通道 是 否 成 功 ， 
如 果 没 有 打开 成 功 ， 则 应 该 中 断 连 接 ; 如 果 打 开 成 功 ， 则 应 该 调用 
AVSync 模 块 的 销毁 方法 (里 面 会 把 音频 队列 、 视 频 队列 、 解 码 线程 以 
及 解码 器 都 销毁 掉 ， 具 体 实 现 请 参考 前 面 的 销毁 方法 ) ; 最 后 一 步 应 
该 是 停止 VideoOutput 模 块 ， 通 过 调用 VideoOutput 的 销毁 资源 的 方法 
(里 面 将 会 销毁 FrameBuffer、Renderbuffer、Program 等 ， 具 体 实现 请 
参考 表面 章节 的 销毁 方法 ) 来 实现 ， 最 终 再 将 VideoOutput 这 个 自 定 义 
的 view 从 ViewController 中 移 除 ， 至 此 销毁 阶段 融 实 现 完毕 了 。 


5.7 ”本章 小 结 


视频 播放 器 已 经 实现 完毕 ， 下 面 来 回顾 一 下 整个 设计 与 开发 阶 
段 。 在 此 之 前 ， 需 要 说 明 的 是 ， 在 书 中 大 量 罗 列 代码 可 不 是 一 件 好 
事 ， 因 此 本 书 会 尽量 少 地 罗列 代码 ， 而 十 引 导 大 家 一 起 逐步 设计 并 实 
现 这 亚 播 放 稻 。 本 章 移 将 其 拆 分 为 各 个 子 模块 并 逐一 实现 。 


:首先 实现 了 输入 模块 (或 者 称 为 解码 模块 ， 输 出 音频 帧 是 
AudioFrame， 其 中 的 主要 数据 是 PCM 裸 数据 ;输出 视频 帧 是 
VideoFrame， 其 中 的 主要 数据 是 YUV420P 的 裸 数 据 。 


:然后 实现 了 音频 播放 模块 ， 输 入 是 解码 出 来 的 AudioFrame， 直 接 
就 是 SInt16 表 示 的 sample 格 式 的 数据 ， 输 出 则 是 输出 到 Speaker 用 户 能 
够 直接 昕 到 声音 。 


:接着 实现 了 视频 播放 模块 ， 输 入 是 解码 出 来 的 VideoFrame， 其 中 
存放 的 是 YUV420P 格 式 的 数据 ， 在 泻 染 过 程 中 可 使 用 OpenGL ES 的 
Sd 并 最 终 显示 到 物 
理 屏 幕 上 。 


-之 后 就 是 音 视频 同步 模块 了 ， 它 的 工作 主要 由 两 部 分 组 成 : 第 一 
部 分 是 负责 维护 解码 线程 ， 即 负责 输入 模块 的 管理 ， 男 外 一 部 分 是 音 
视频 同步 ， 可 回 外 部 提供 填充 首 频数 据 的 接口 和 获取 视频 帧 的 接口 ， 
以 保证 所 提供 的 数据 是 同 步 的 。 


最 后 编写 一 个 中 控 系 统 ， 人 负责 将 AVSync 模 块 、AudioOutput 模 
块 、VideoOutput 模 块 组 织 起 来 ， 最 重要 的 束 是 维护 这 几 个 模块 的 生命 
周期 ， 由 于 其 中 存在 多 线程 的 问题 ， 所 以 需要 重点 注意 的 是 ， 应 在 初 
始 化 、 运 行 、 销 毁 各 个 阶段 保证 这 几 个 模块 可 以 协同 有 序 地 运行 ， 同 
时 中 控 系 统 应 对 外 提供 用 户 可 以 操作 的 接口 ， 比 如 开始 播放 、 和 暂停 、 
继续 、 停 止 等 接口 。 


第 6 章 ” 音 视频 的 采集 与 编码 


前 面 4 章 控 讨 了 声音 与 画面 的 解码 与 泻 染 ， 第 5 章 完成 了 一 个 视频 
播放 右 的 项 目 。 对 于 一 个 完整 的 多 媒体 App 来 说 ， 只 有 播放 而 没有 和 采 
制 是 不 够 的 ， 对 于 视频 的 录制 ， 最 重要 的 束 是 声 首 和 画面 采集 和 编 
码 ， 本 章 束 来 学 习 音 视频 的 采集 和 编码 ， 紧 接着 第 7 草 将 会 通过 一 个 完 
整 的 录制 视频 的 项 目 来 巩固 本 章 所 学 的 内 容 。 


6.1 首 频 的 采集 


本 节 将 会 学 习 Android 平 台 与 iOS 平 台 音 频 采 集 的 知识 ， 请 不 太 了 
解 音频 基础 知识 的 读者 先 回头 看 第 1 章 的 内 容 ， 因 为 在 音 视 频 的 开发 过 
程 中 ， 经 常 要 涉及 这 些 基础 知识 ， 掌 握 了 这 些 重要 的 概念 之 后 ， 开 发 
过 程 中 遇 到 的 很 多 参数 和 流程 就 会 更 加 容易 理解 。 


6.1.1 _ Android 平台 的 音频 采集 


Android SDK 提 供 了 两 套 音 频 采 集 的 API， 分 别 是 : MediaRecorder 
和 AudioRecord。 前 者 是 一 个 更 加 上 层 的 API， 它 可 以 直接 对 手机 有 麦克 
风 录 入 的 音频 数据 进行 编码 压缩 (如 AMR、MP3 等 ) ， 并 存储 为 文 
件 ， 后 者 则 更 加 接近 底层 ， 能 够 更 加 自由 灵活 地 控制 ， 其 可 以 让 开发 
考 得 到 内 存 中 的 PCM 音 频 流 数据 。 如 果 想 做 一 个 人 简单 的 录 首 机 ， 输 出 
首 频 文件 ， 则 推荐 使 用 MediaRecorder; 如 果 需 要 对 首 频 做 进一步 的 算 
法 处 理 ， 或 者 需要 采用 第 三 方 的 编码 库 进 行 压缩 ， 又 或 者 需要 用 到 网 
络 传输 等 场景 中 ， 那 么 只 能 使 用 AudioRecord 或 者 OpenSL ES, 其 实 
MediaRecorder 底 层 也 是 调用 了 AudioRecord 与 Android Framework 层 的 
AudioFlingerj 进 行 交 互 的 。 而 我 们 的 项 目 场景 显然 更 倾 癌 于 第 二 种 方 
式 ， 即 使 用 AudioRecord 来 采集 音频 ， 人 至 于 OpenSL ES 录制 首 频 的 
API， 由 于 其 属于 Native 层 提供 的 接口 ， 因 此 本 章 不 做 讲解 。 


既然 选择 了 AudioRecord 这 个 Android 平 台所 提供 的 SDK， 那 么 取 
得 内 存 中 的 PCM 数 据 之 后 又 该 如 何 处 理 呢 ? 在 多 媒体 App 中 ， 一 般 会 
对 声音 进行 特效 处 理 ， 然 后 将 其 编码 为 一 个 AAC 或 者 MP3 文 件 ， 至 于 
音频 的 处 理 前 面 还 没有 讲解 ， 而 对 于 音频 的 编码 本 章 后 续 会 进行 学 
习 ， 所 以 这 里 先 暂 时 简单 地 写成 PCM 文 件 。 在 录制 结束 之 后 ， 可 以 从 
SD 卡 中 读 取 该 PCM 文 件 ， 然 后 使 用 ffplay 进 行 播放 (如 何 用 ffplay 播 放 
PCM 文 件 ， 是 第 3 章 所 讲 的 内 容 ， 如 果 忘 记 了 可 以 回头 去 查看 命令 ) 
以 试听 效果 。 


如 果 想 要 使 用 AudioRecord 这 个 API， 则 需要 在 应 用 
AndroidManifest.xml 的 配置 文件 中 增加 权限 ， 代 码 如 下 : 


<uses-permission android:name="android.permission.RECORD AUDIO" /> 


奉 要 把 录制 出 来 的 数据 写 入 文件 中 ， 则 需要 配置 写 和 人 文件 的 权 
限 ， 代 码 如 下 : 


<uses-permission android:name="android.permission.WRITE_ EXTERNAL STORAGE" /> 


接 下 来 了 解 一 下 AudioRecord 的 工作 流程 。 
1. 配 置 参 数 ， 初 始 化 内 部 的 音频 缓冲 区 


首先 来 看 一 下 AudioRecord 的 配置 参数 ，AudioRecord 是 通过 构造 
函数 来 配置 参数 的 ， 其 函数 原型 如 下 : 


public AudioRecord(int audioSource, int sampleRateInHz, int channelConfig, int 
audioFormat, int bufferSizeInBytes). 


no 
[0 o 


audioSource， 该 参数 指 的 是 音频 采集 的 输入 源 ， 可 选 值 以 常量 的 
形式 定义 在 类 AudioSource (MediaRecorder 的 一 个 内 部 类 ) 中 ， 常 用 的 
值 包括 : 


:DEFAULT (默认 ) 


.VOICE RECOGNITION (用 于 语音 识别 ， 等 同 于 DEFAULT) 
:MIC (由 手机 麦克 风 输 入 ) 
.VOICE_COMMUNICATION (用 于 VoIP 应 用 ) 等 
sampleRateInHz， 用 于 指 定 以 多 大 的 采样 频率 来 采集 音频 ， 现在 
用 得 最 多 的 就 是 44100 的 采样 频率 (就 是 我 们 常 说 的 44.1kHz 的 采样 
率 ) ， 如 有 果 使 用 该 采样 率 初 始 化 录音 器 失败 的 话 ， 则 可 以 使 用 16000 的 
采样 频率 (就 是 我 们 常 说 的 16kHz 的 采样 率 ) 来 尝试 一 下 。 


:channelConfig， 该 参数 用 于 指定 录音 嘿 采 集 几 个 声 道 的 声音 ， 可 
选 值 以 常量 的 形式 定义 在 AudioFormat 类 中 ， 常 用 的 值 包括 : 


:CHANNEL IN MONO ( 单 声 道 ) 


.CHANNEL IN_ STEREO (立体 声 ) 


-由 于 现在 的 移动 设备 都 是 仿 立 体 声 的 采集 ， 所 以 出 于 性 能 考虑 ， 
一 般 按照 单 声 道 进行 采集 ， 然 后 在 后 期 处 理 中 将 数据 转换 为 立体 声 。 


“audioFormat， 这 束 是 基础 概念 里 面 介 绍 过 的 采样 的 表示 格式 ， 可 
选 值 以 常量 的 形式 定义 在 AudioFormat 类 中 ， 常 用 的 值 包括 : 


:ENCODING PCM 16BIT (16bit) 


:ENCODING PCM 8BIT (8bit) 
注意， 前 者 可 以 保证 兼容 大 部 分 的 Android 手 机 。 


:bufferSizeInBytes， 这 是 最 难 理解 但 最 重要 的 一 个 参数 ， 其 配置 的 
是 AudioRecord 内 部 的 音频 缓冲 区 的 大 小 ， 而 具体 的 大 小 ， 不 同 的 厂商 
会 有 不 同 的 实现 ， 该 音频 缓冲 区 越 小 ， 产 生 的 延 时 就 会 越 小 。 
AudioRecord 类 提供 了 一 个 静态 方法 用 于 确定 该 bufferSizeInBytes 的 函 
数 ， 其 原型 如 下 : 


int getMinBufferSize(int sampleRateInHz, int channelConfig, int audioFormat ) ; 


在 实际 开发 中 ， 强 烈 建议 由 该 函数 计算 出 需要 传 入 的 
bufferSizeInBytes， 而 不 是 使 用 自己 计算 的 值 。 


配置 好 AudioRecord 之 后 ， 应 该 检查 一 下 AudioRecord 的 当前 状 
态 ， 因 为 极 有 可 能 会 因为 权限 〈 用 户 未 对 我 们 的 应 用 授权 访问 麦克 风 
的 权限 ) ， 或 者 由 于 其 他 应 用 没有 正确 地 释放 录音 堪 等 原因 ， 使 得 构 
造 的 AudioRecord 的 状态 不 正常 。 可 以 通过 AudioRecord 的 方法 getState 
来 获取 当前 录音 器 的 状态 ， 然 后 与 AudioRecord.STATE_INITAILIZED 
进行 比较 ， 如 果 不 相 等 ， 则 提示 用 户 尚 未 获得 录音 权限 。 


2. 开 始 采集 


行 创建 好 AudioRecord 对 象 之 后 束 可 以 开始 进行 首 频 数据 的 采集 
了 ， 可 通过 下 面 的 函数 来 控制 麦克 风 音 频 采 集 的 开始 : 


audioRecord.startRecording(); 


3. 提 取 数 据 


执行 完 上 壕 命 令 之 后 ， 需 要 一 个 线程 ， 从 AudioRecord 的 缓冲 区 中 
将 音频 数据 不 断 地 读 取 出 来 。 注 意 ， 该 过 程 一 定 要 及 时 ， 否 则 会 出 
现 “overrun” 的 错误 ， 该 错误 在 首 频 开 发 中 比较 常见 ， 其 意味 着 应 用 层 
没有 及 时 地 “ 取 走 ”音频 数据 ， 从 而 导致 内 部 的 音频 绥 神 区 次 出 。 读 取 
了 永 音 右 采集 到 的 PCM 数 据 的 方法 原型 如 下 所 示 : 


public int read(byte[] audioData, int offsetInBytes, int sizeInBytes) 


当然 ， 也 可 以 读 取 short 数 组 类 型 的 数据 ， 因 为 其 更 符合 抵 层 的 一 
0 毕竟 我 们 的 设置 是 每 个 sample 都 由 一 个 short 来 表示 ， 方 法 原 
型 如 下 : 


public int read(short[] audioData, int offsetInShorts, int SizeInShorts ) 


拿 到 数据 之 后 瓯 可 以 直接 写 入 文件 了 ， 可 以 通过 Java 层 提供 的 
FileOutputStream 将 数组 直接 写 到 文件 中 。 


4. 集 止 采 集 ， 释 放 资 源 


当 我 们 想 要 集 止 录 首 的 时 候 ， 可 调用 AudioRecord 的 stop 方 法 来 实 
现 ， 并 且 最 终 要 对 该 AudioRecord 的 实例 调用 release， 代 表 释 放 挥 了 采 
音 器 ， 以 便 设 备 的 其 他 应 用 可 以 正常 使 用 录音 器 ， 这 一 点 是 十 分 重要 
的 。 可 以 通过 布尔 型 变量 的 控制 移 读 取 数 据 的 线程 并 结束 ， 然 后 再 停 
止 和 释放 AudioRecord 实 例 ， 最 终 再 关闭 写 入 数据 的 文件 ， 否 则 会 有 文 
件 写 出 不 完全 的 问题 。 


本 世 的 实例 在 代码 仓库 里 是 AudioRecorder 项 目 二 运行 该 项 目 ， 进 
入 有 杂音 界面 ， 点 击 record 开 始 录 首 ， 点 击 stop 停 止 录 首 ， 然 后 利用 adb 
pul 导 出 PCM 文 件 : 


adb pull /mnt/sdcard/vocal.pcm ~/Desktop/ 


利用 ffplay 播 放声 首 : 


ffplay -f si6le -sample_rate 44100 -channels 1 -i Vocal,pcm 


也 可 以 利 用 0 0 0 然后 使 用 PC 上 
的 系统 播放 器 进行 播放 : 


ffmpeg -f si6le -sample rate 44100 -channels 1 -i vocal.pcm -acodec pcm_ si6le 
Vocal ,wav 


6.1.2 ” iOS 平台 的 首 频 来 集 


iOS 平 台 提 供 了 多 套 API 采 集 首 频 ， 如 果 开 发 者 想 要 直接 指定 一 个 
路 人 笃 ， 则 可 以 将 孙 制 的 音频 编码 到 文件 中 ， 可 以 使 用 AVAudioRecorder 
这 套 API， 其 优点 是 简单 易 用 ， 但 是 其 对 于 想 要 实时 地 在 内 存 中 获得 孙 
首 的 数据 来 说 ， 限 制 性 非常 强 。 对 此 ，iOS 平 台 提供 了 两 个 层次 的 API 
来 协助 实现 ， 第 一 种 方式 是 使 用 AudioQueue， 第 二 种 方式 是 使 用 
AudioUnit， 实 际 上 AudioQueue 是 AudioUnit 更 高 级 的 封装 ， 相 比较 于 
AudioUnit， 它 提供 的 功能 更 单一 ， 使 用 的 接口 调用 更 简单， 具体 使 用 
哪个 层次 的 API 需 要 根据 应 用 场景 来 决定 。 如 果 仪 仅 是 要 获取 内 存 中 的 
录 首 数据 ， 然 后 再 进行 编码 输出 〈《 有 可 能 是 输出 到 本 地 磁盘 ， 也 有 可 
能 是 网 络 ) ， 那 么 使 用 更 高 级 的 AudioQueue 的 API 会 更 好 一 些 ， 如 果 要 
使 用 更 多 的 音效 处 理 ， 以 及 实时 的 监听 〈 在 耳机 中 可 以 听 到 目 己 说 的 
话 ， 在 唱歌 的 App 中 这 是 一 个 最 基础 的 功能 ) ， 那 么 使 用 AudioUnit 会 
更 加 方便 一 些 。 本 书 的 代码 案例 中 ， 使 用 的 都 是 AudioUnit， 因 为 本 书 
案例 实现 的 场景 不 仅 需要 耳 返 ， 还 需要 音效 的 实时 处 理 等 功能 。 


要 想 使 用 iOS 的 麦 苑 风 进 行 孙 音 ， 首 移 要 为 App 声 明 使 用 麦克 风 的 
区 在 新 建 的 目录 下 面 找到 info.plist， 然 后 在 其 中 新 增 考区 风 权限 的 


声明 


<key>NSMicrophoneUsageDescription</key> 
<string>microphoneDesciption</string> 


这 样 添加 之 后 ， 系 统 整 知道 了 App 要 访问 系统 的 麦克 风 权 限 。 这 里 
使 用 的 AudioUnit， 本 书 的 第 4 章 在 讨论 音频 演 染 的 时 候 已 经 有 很 详尽 的 
讲解 ， 所 以 这 里 直接 来 看 如 何 使 用 AudioUnit 实 现 人 声 录制 ， 同 时 ， 还 
会 发 送 给 耳机 一 个 监听 耳 返 〈 等 完成 这 一 功能 之 后 ， 读 者 肯定 会 感 
叹 ， 这 些 在 iOS 平 台 上 实现 起 来 是 多 么 的 简单 ) 。 


与 第 4 章 讲解 的 一 样 ， 要 使 用 AudioUnit， 首 先 需 要 通过 
AVAudioSession 来 开局 硬件 设备 以 及 对 硬件 设备 做 一 些 设置 ， 然 后 才能 
使 用 AudioUnit， 而 AVAudioSession 的 具体 使 用 方法 也 和 前 面 讲 解 的 一 
致 ， 下 面 再 来 熟悉 一 下 : 


1) 获得 AVAudioSession 的 实例 ， 由 于 AVAudioSession 是 单 例 模式 
设计 的 ， 所 以 在 这 里 只 需要 调用 它 的 单 例 方法 就 可 以 获得 。 


2) 为 AudioSession 设 置 使 用 类 别 ， 由 于 要 在 录音 的 同时 为 用 户 输 
送 一 路 监听 耳 运 ， 所 以 这 里 移 择 使 用 类 别 
AVAudioSessionCategoryPlayAndRecord， 本 书 前 面 的 章节 中 ， 仅 在 做 音 
频 泻 染 时 使 用 到 类 别 AVAudioSessionCategoryPlayback。 所 以 设置 这 个 
类 别 的 目的 是 告诉 系统 的 硬件 应 该 为 我 们 的 App 提 供 什么 样 的 服务 。 


为 AudioSession 设 置 预 设 的 采样 率 。 


启用 AudioSession 。 


3) 
4) 
5) 为 AudioSession 设 置 路 由 监听 器 ， 目 的 就 是 在 采集 音频 或 者 音 
频 输 出 的 线路 发 生变 化 的 时 候 (比如 插 拔 耳机 、 蓝 牙 设 备 连 接 成 功 
等 ) 回调 此 方法 ， 以 便 开 发 者 可 以 重新 设置 使 用 当前 最 新 的 麦克 风 或 


= 局 


扬声器 。 


至 此 AudioSession 束 设置 好 了 ， 接 下 来 的 事情 加 是 构造 该 应 用 所 使 
用 的 AUGraph， 其 构造 步骤 与 第 4 章 中 音频 泻 染 构造 的 AUGraph 也 很 类 
似 ， 因 为 这 里 要 使 用 录音 功能 ， 所 以 需要 局 用 RemoteIO 这 个 AudioUnit 
的 InputElement。RemoteIO 这 个 AudioUnit 比 较 特 别 ，Imput-Element 实 际 
上 使 用 的 是 麦克 风 ， 而 OutputElement 使 用 的 则 是 扬声器 ， 所 以 这 里 首 
先 会 启用 RemoteIOUnit 的 InputElement。 为 了 支持 所 开发 的 App 可 以 在 
后 续 Mix 一 轨 伴 答 这 一 扩展 功能 ， 在 AUGraph 中 需要 增加 
MultiChannelMixer 这 个 AudioUnit。 由 于 每 个 AudioUnit 的 输入 输出 格式 
并 不 相同 ， 所 以 这 里 还 要 使 用 AudioConvert 这 个 AudioUnit 将 输入 的 
AudioUnit 连 接 到 MixerUnit 上 上。 最终 将 MixerUnit 连 接 到 RemoteIO 这 个 
AudioUnit 的 OutputElement， 将 声音 发 送 到 耳机 的 扬声器 中 (如 果 直 接 
发 送 到 手机 的 扬声器 中 就 会 出 现 啸 叫 ) ， 这 样 就 将 AUGraph 整 体 地 建 
并 起 来 了 ， 如 图 6-1 所 示 。 
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图 6-1 


此 外 ， 这 里 还 需要 实现 一 个 功能 ， 束 是 将 隶 首 得 到 的 数据 存储 为 
一 个 文件 。 若 我 们 想 要 获取 某 个 AudioUnit 的 数据 ， 并 将 其 写 入 文件 ， 
那么 可 以 在 它 后 一 级 的 AudioUnit 中 增加 一 个 回调 ， 然 后 在 回调 方法 中 
将 该 AudioUnit 的 数据 泻 染 出 来 并 发 送 给 下 一 级 的 AudioUnit， 同 时 也 可 
以 去 写 文件 ， 这 种 方式 已 经 在 音频 演 染 的 时 候 使 用 过 了 “。 这 里 就 为 
RemoteIO 这 个 AudioUnit 的 OutputElement 增 加 一 个 回调 ， 代 人 码 如 下 : 


AURenderCallbackStruct finalRenderProc,; 

finalRenderpProc,inputProc = &renderCallback; 

finalRenderpProc,inputProcRefCcon = (_ bridge void *)self; 

status = AUGraphSetNodeInputCcallback(_auGraph，_ioNode，0，&finalRenderProc ) ， 


然后 在 上 述 回 调 方 法 的 实现 中 ， 将 它 的 前 一 级 MixerUnit 的 数据 泻 
染 出 来 ， 同 时 写 文件 ， 代 码 如 下 : 


static OSStatus renderCallback(void *inRefCon, 

AudioUnitRenderActionFlags *ioActionFlags, const AudioTimeStamp 
*inTimeStamp, UINt32 inBusNumber, UINnt32 inNumberFrames, AudioBufferList 
*ioData)t{ 

OSStatus result = noErr,; 

unsafe_unretained AudioRecorder *THIS = (bridge AudioRecorder *)inRefCon; 

AudioUnitRender (THIS->_mixerUnit, ioActionFlags, 

inTimeStamp, 0, inNumberFrames, ioData); 
// Write To File 
return result; 


对 于 写 文 件 ， 后 面 的 6.3 节 中 会 使 用 AudioToolbox 来 编码 文件 ， 但 
是 这 里 将 使 用 一 个 更 高 级 的 API 来 写 文 件 ， 即 ExtAudioFile，iOS 提 供 的 


这 个 API 只 需要 设置 好 输入 格式 、 输 出 格式 以 及 输出 文件 路 径 和 文件 格 
式 即 可 ， 代 码 如 下 : 


AudioStreamBasicDescription destinationFormat ， 

CFURLRef destinationURL,; 

result = ExtAudioFileCreatewithURL(destinationURL, kAudioFileCAFType, 
&destinationFormat, NULL, kAudioFileFlags_ EraseFile, &audioFile); 

result = ExtAudioFileSetProperty(audioFile, 
kExtAudioFileProperty_ClientDataFormat, sizeof(clientFormat), 
&clientFormat ) ， 

UInt32 codec = kAppleHardwareAudioCodecManufacturer; 

result = ExtAudioFileSetProperty(audioFile, 
kExtAudioFileProperty_CodecManufacturer, sizeof(codec), &codec); 


和 需要 编码 文件 时 直接 写 入 数据 ; 


ExtAudioFilewriteAsync(audioFile, inNumberFrames, ioData); 


在 停止 写 入 的 时 候 调 用 关闭 方法 即 可 : 


ExtAudioFileDispose(audioFile); 


最 终 融 可 以 得 到 我 们 想 要 的 文件 了 ， 天 家 可 以 从 应 用 的 沙 盒 中 将 
保存 的 文件 读 取出 来 (在 XCode 中 利用 Device 取 出 文件 或 者 使 用 
iExplorer 等 软件 取出 ) ， 然 后 播放 试听 一 下 。 


本 节 的 代码 示例 是 代码 仓库 中 的 AudioRecorder， 建 议 读者 运行 该 
项 目的 时 候 揪 上 耳机 ， 以 免 设 备 发 出 啸 叫 的 声音 ， 另 外 ， 可 点 击 
recorder 开 始 录 音 ， 点 击 stop 结 束 录 首 ， 并 且 可 取出 对 应 的 录音 文件 在 
PC 上 用 系统 播放 屁 进 行 播 放 试 听 。 


6.2 ”视频 画面 的 采集 


视频 画面 的 采集 主要 是 使 用 各 个 平台 提供 的 摄像 头 API 来 实现 
的 ， 在 为 摄像 头 设置 了 合适 的 参数 之 后 ， 将 摄像 头 实 时 采集 的 视频 帧 
浑 染 到 屏幕 上 提供 给 用 户 预 览 ， 然 后 将 该 视频 帆 编 码 到 一 个 视频 文件 
中 ， 其 使 用 的 编码 格式 一 般 是 H264。 当 然 ， 最 终 我 们 还 要 配 上 音频 ， 
否则 没有 音频 文件 的 视频 吏 成 了 早期 的 默片 电影 了 。 


本 节 将 主要 学 习 如 何在 Android 和 iOS 平 台 上 利用 各 目 平 台 拓 供 的 
摄像 尖 API， 采 集 出 正确 的 视频 巾 并 绘制 到 屏幕 上 ， 具 体 的 编码 将 会 
在 后 续 进 行 讨论 。 


6.2.1 Android 平 台 的 视频 男 面 采 集 


1. 权 限 配 置 


要 想 使 用 Android 乎 台 提 供 的 摄像 头 ， 首 先 必 须 在 配置 文件 中 添加 
如 下 权限 要 求 : 


<uses-permission android:name="android,.permission.CAMERA" /> 


伴随 着 Android 系 统 的 发 展 ，Android 的 摄像 头 API 也 已 经 有 了 非常 
大 的 变化 ， 现 在 选用 的 Camera 的 使 用 方式 为 设置 预览 纹理 的 形式 ， 而 
不 是 设置 YUV 数 据 回调 的 方式 ， 这 是 因为 得 到 纹理 ID 之 后 ， 可 以 很 方 
便 地 进行 视频 小 镜 处 理 ， 并 且 很 容易 渲染 到 界面 上 。 


2. 打 开 摄 像 头 
Android 乎 台 提供 了 打开 摄像 头 的 API， 其 函数 原型 如 下 : 


public static Camera open(int cameraId ) 


需要 传 入 的 参数 就 是 摄像 头 的 ID， 从 手机 的 发 展 历史 可 以 知道 ， 
先 有 后 置 摄像 大 ， 然 后 才 有 前 置 摄像 头 ， 甚 至 目前 已 经 有 部 分 手机 有 
了 更 多 的 辅助 摄像 头 ， 所 以 摄像 头 的 ID 排列 是 后 置 摄像 头 是 0， 前 置 摄 
像 头 是 1， 然 后 才 坪 其 他 的 摄像 头 ， 即 便 是 这 样 ， 我 们 也 要 使 用 
CameraInfo 类 里 面 的 两 个 常量 ， 它 们 分 别 如 下 。 


.CAMERA_FACING_BACK 代 表 后 置 摄像 头 。 


.CAMERA_FACING_FRONT 代 表 前 置 摄像 头 。 

该 函数 返回 的 就 是 一 个 摄像 头 的 实例 ， 如 果 返 回 的 是 NULL ， 或 者 
抛 出 异常 《因为 不 同 厂 商 所 给 出 的 返回 是 不 一 样 的 ) ， 则 代表 用 户 没 
有 授权 该 应 用 访问 摄像 头 。 


3. 配 置 摄像 头 参数 


获取 到 该 摄像 头 实例 之 后 ， 权 为 该 摄像 头 实例 设置 对 应 的 参数 ， 
参数 的 配置 主要 涉及 如 下 两 个 参数 。 


第 一 个 参数 是 预览 格式 ， 一 般 设置 为 NV21 格 式 的 ， 实 际 上 就 是 
YUV420SP 的 格式 ， 即 UV 是 interleaved (交错 UVUVUV) 的 存放 ， 代 
码 设置 如 下 : 


List<Integer> SupportedPreviewFormats = parameters.getSupportedpreviewFormats(); 
If (supportedPreviewFormats.contains(ImageFormat.NV21)) { 
parameters.SsetPreviewFormat(ImageFormat .NV21) ， 
} else { 
throw new CameraParamSettingException(" 视 频 参 数 设置 错误 :设置 预 换 图像 格 式 异 常 " )， 


} 


上 述 代 码 先 取出 摄像 头 所 支持 的 所 有 预览 格式 ， 然 后 判断 其 是 否 
包含 我 们 要 设 定 的 格式 ， 如 果 包 含 ， 则 设置 进去 ;如果 不 包含 ， 则 抛 
出 异常 ， 让 客户 端 代码 进行 处 理 。 


第 二 是 设置 预览 的 尺寸 ,分辨 率 的 尺寸 一 般 设置 为 12280x720， 当 
做 对 于 某 些 应 用 来 说 ， 可 外 能 也 会 设置 为 640x480 的 分 辨 率 ， 代 码 设 置 如 


ea 


List<Size> supportedPreviewSizes = parameters.getSupportedPreviewSizes()， 
int previewWidth = 640;// 1280 
int previewHeight = 480;// 720 
boolean isSupportPreviewSize = isSupportPreviewSizel( 
supportedPreviewSizes, previewwWidth, previewHeight); 
if (isSupportPreviewSize) { 
parameters.setPreviewSize(previewWidth, previewHeight); 


} else { 
throw new CameraParamSettingException(" 视 频 参 数 设置 错误 : 设置 预览 的 尺寸 异常 ") ， 
} 


上 述 代 码 会 取出 摄像 头 所 支持 的 所 有 分 辨 率 列 表 ， 然 后 判断 要 设 
置 的 分 辨 紊 是 否 在 支持 的 列表 中 ， 如 果 包 含 ， 则 设置 进去 ， 否 则 抛 出 
异常 ， 让 客户 病人 代码 进行 处 理 。 


配置 完 上 述 参数 的 设置 之 后 ， 就 需要 将 该 参数 设置 给 Camera 实 例 
了 ， 代 码 如 下 : 


try { 
mCamera.setParameters(parameters ) ， 


} catch (Exception e) 
throw new CameraParamSettingException(" 视 频 参 数 设 置 错误 ")， 


在 宽 高 的 设置 中 ， 细 心 的 读者 可 能 已 经 注意 到 了 宽 是 1280 (或 者 
640) ， 高 是 720 (或 者 480) ， 这 是 因为 摄像 头 默 认 采 集 出 来 的 视频 画 
面 是 横 有 版 的 ， 在 显示 的 时 候 ， 需 要 获取 当前 这 个 摄像 头 采 集 出 来 的 画 
面 的 旋转 角度 ， 那 么 具体 的 旋转 角度 应 该 如 何 获取 呢 ? 代码 如 下 : 


int degrees = 0) 
CameraInfo info = new CameraInfo(); 
Camera.getCameraInfo(cameraId，info) ， 
if (info,facing == Camera.CameraInfo.CAMERA FACING FRONT) { 
degrees = (info.orientation) % 360; 
} else { // back-facing 
degrees = (info.orientation + 360) % 360; 


根据 不 同 的 摄像 头 取出 对 应 的 CameraInfo， 该 CameraInfo 中 的 
orientation 变 量 表示 的 就 是 该 摄像 头 采 集 到 的 画面 的 旋转 角度 ， 不 过 ， 
要 想 正 确 地 旋转 还 需要 再 处 理 一 下 ， 如 果 是 前 置 摄像 头 ， 则 直接 对 360 
进行 取 模 ; 如 果 是 后 置 摄像 头 ， 则 先 加 上 360 度 再 取 模 360， 从 而 就 能 
得 到 想 要 旋转 的 角度 。 得 到 的 这 个 角度 对 于 后 续 可 以 将 视频 帧 正确 地 
下 面 讲述 摄像 头 的 预览 时 就 会 用 到 
该 角度 参数 。 


4. 摄 像 头 的 预 近 


配置 好 摄像 头 之 后 ， 剩 下 的 事情 束 申 配置 摄像 头 采 集 每 一 帧 图 像 
的 回调 ， 并 且 获 取 到 图 像 之 后 将 图 像 泻 染 到 屏幕 上 。 本 书 的 第 4 章 已 经 
讲解 过 了 如 何 通过 OpenGL ES 来 泻 染 图 像 ， 这 里 先 来 回顾 一 下 首先 
把 图 像 解 码 为 RGBA 格 式 ; 然后 将 RGBA 格 式 的 字 节 数组 上 传 到 一 个 纹 
理 上 ;最终 将 该 纹理 泻 染 到 屏幕 上 。 所 以 这 里 的 演 染 到 屏幕 上 也 会 使 
用 OpenGL ES 来 实现 。 由 于 这 里 要 显示 的 纹理 是 摄像 头 按照 一 定 的 刷 
(fps) 来 更 新 的 ， 所 以 最 终 显 示 出 来 的 就 是 我 们 预期 的 预览 


整个 预览 过 程 分 为 三 个 阶段 ， 分 别 为 开始 预 中 、 刷 新 预览 与 结束 
预 兄 。 我 们 百 先 讲解 开始 预 筑 阶段 ， 整 体 流程 如 图 6-2 所 示 。 
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如 图 6-2 所 示 ， 首 先 在 Activity 的 界面 层 构造 一 个 SurfaceView 用 于 显 
示 泻 染 结 果 ; 然后 在 Native 层 用 EGL 和 OpenGL ES 构造 一 个 泻 染 线 程 用 
于 渲染 该 SurfaceView， 同 时 在 该 泻 染 线程 中 生成 一 个 纹理 ID 并 传递 到 
Java 层 ;Java 层 利用 该 纹理 ID 构 造 出 一 个 Surface-Texture， 之 后 再 将 该 
SurfaceTexture 作 为 Camera 的 预览 目标 。 最 终 调 用 Camera 的 开始 预 响 
法 ， 这 样 就 可 以 将 摄像 头 采 集 到 的 视频 帧 浑 染 到 设备 屏幕 上 了 。 


但 是 如 何 让 摄像 头 按照 频率 采集 出 来 的 视频 帧 依次 进行 泻 染 呢 ? 
答案 是 在 图 6-3 中 构造 好 了 SurfaceTexture 对 象 之 后 ， 要 为 该 对 象 设置 视 
频 帧 可 用 时 的 监听 器 ， 实 际 上 就 是 当 SurfaceTexture 在 可 以 更 新 的 时 候 
调用 该 监 昕 絮 〈《 即 当 Camera 设 备 采 集 到 一 帧 视频 帧 的 时 候 会 回调 该 监 
听 锅 方法 ) 。 将 纹理 ID 设置 给 摄像 头 的 代码 如 下 : 


mCameraSurfaceTexture = new SurfaceTexture(textureId ) ， 

try { 
mCamera.setPpreviewTexture(mCameraSurfaceTexture); 
mCameraSurfaceTexture.setOonFrameAvailableListener(frameAvailableListener); 
mCamera.startPpreview( ) ， 

} catch (Exception e) { 
throw new CamerapParamSettingException(" 设 置 预览 纹理 错误 " ) ， 


如 上 所 述 ， 代 码 中 的 frameAvailableListener 是 继承 上 自 
OnFrameAvailableListener 内 部 类 的 一 个 实例 ， 在 该 内 部 类 中 重 写 
onFrameAvailable 方 法 ， 在 该 方法 中 调用 Native 层 的 方法 来 演 染 摄像 头 
刚刚 捕捉 的 图 像 。 调 用 到 了 Native 层 之 后 ， 将 会 委托 到 泻 染 线程 中 去 调 
用 Java 层 的 SurfaceTexture 的 updateTexImage 方 法 (因为 必须 在 OpenGL 
ES 的 泻 染 线程 中 才 可 以 调用 该 方法 ， 所 以 绕 了 一 大 圈 ) 。 更 新 视频 帧 
的 整体 流程 如 图 6-3 所 示 。 
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图 6-3 中 ， 当 VideoCamera 的 方法 updateTexture 执 行 完毕 之 后 ， 就 说 
明 摄 像 头 采集 的 视频 帧 已 经 更 新 到 Native 层 生成 的 纹理 ID 上 了 ， 演 染 线 
程 就 可 以 把 该 纹理 ID 演 染 到 界面 上 去 了 。 当 摄像 头 再 次 采集 到 一 帧 新 
视频 帧 的 时 候 ， 怠 会 周而复始 地 执行 上 述 过 程 ， 这 样 在 设备 屏幕 上 就 
可 以 流畅 地 看 到 摄像 头 的 预览 了 。 


对 于 演 染 线程 的 搭建 以 及 如 何 将 一 帧 纹理 绘制 到 上 层 界 面 的 知识 
已 经 在 前 面 章 节 中 讲解 过 了 ， 那 么 摄像 头 采 集 到 这 一 帧 视频 帧 之 后 是 
如 何 进 行 泻 梁 的 呢 ? 这 也 是 接 下 来 的 重点 ， 下 面 一 起 来 看 看 。 


前 面 提 到 过 ， 要 在 渲染 线程 中 生成 一 个 纹理 ID， 然 后 传递 到 Java 
层 ， 再 由 Java 层 构造 成 一 个 SurfaceTexture 类 型 的 对 象 ， 并 将 Camera 的 
PreviewCallback 设 置 为 该 SurfaceTexture 对 象 。 由 于 摄像 头 采 集 出 来 的 
视频 帧 的 格式 是 NV21， 即 采集 出 来 的 一 帧 的 格式 是 YUV420SP， 
width*height 个 像素 点 共 占 用 了 width*height*3/2 个 字 节 数 ， 即 每 个 像素 
点 都 会 有 一 个 Y 放 到 数据 存储 的 前 width*height 个 数据 中 ， 每 四 个 像素 


点 共享 一 个 UV 放 到 后 半 部 分 进行 交错 存储 。 而 在 OpenGL 中 使 用 的 绝 
大 部 分 纹理 ID 都 是 RGBA 的 格式 ， 男 外 之 前 在 讲解 播放 器 项 目的 时 候 也 
曾 讲 过 Luminance 格 式 ， 但 是 那里 是 开辟 3 个 纹理 ID 来 表示 一 张 YUV 的 
图 片 ， 这 里 必须 使 用 一 个 纹理 ID 来 为 Camera 更 新 数据 ， 那 么 应 该 如 何 
将 3 个 Luminance 的 纹理 ID 合并 成 一 个 纹理 ID 呢 ? 邓 好 OpenGL ES 的 扩 
展 GL_OES_EGL_image_external 定 义 了 一 个 纹理 的 扩展 类 型 ， 即 
GL_TEXTURE_EXTERNAL_OES， 否 则 整个 转换 过 程 将 会 非常 复杂 。 
同时 这 种 纹理 目标 对 纹理 的 使 用 方式 也 会 有 一 些 限制 ， 纹 理 绑 定 需 

绑 定 到 类 型 GL_ TEXTURE_EXTERNAL _OES 上 ， 而 不 是 类 型 

GL_ TEXTURE 2D 上 ， 对 纹理 设置 参数 也 要 使 用 
GL_TEXTURE_EXTERNAL_OES 类 型 ， 生 成 纹理 与 设置 纹理 参数 的 代 
码 如 下 : 


glGenTextures(1, &texId); 

glBindTexture(GL_TEXTURE_EXTERNAL_OES, texId); 
glTexParameteri(GL_TEXTURE_EXTERNAL_OES, GL_TEXTURE_MAG_FILTER, GL_LINEAR); 
glTexParameteri(GL_TEXTURE_EXTERNAL_OES, GL_TEXTURE_MIN_FILTER, GL_LINEAR); 
glTexParameteri(GL_TEXTURE_EXTERNAL_OES, GL_TEXTURE_WRAP_S, GL_CLAMP_TO_EDGE); 
glTexParameteri(GL_TEXTURE_EXTERNAL_OES, GL_TEXTURE_ WRAP_T, GL_CLAMP_TO_EDGE); 


在 实际 的 泻 当 过程 中 绑 定 纹理 的 代码 如 下 : 


glLActiveTexture(GL_TEXTUREO ) ， 
glBindTexture(GL_TEXTURE_EXTERNAL_OES, texId); 
glUuniform1ii(uniformSamplers, 0); 


在 OpenGL ES 的 shader 中 ， 任 何 需要 从 纹理 中 采样 的 OpenGL ES 
2.0 的 shader 都 需要 声明 其 对 此 扩展 〈GL_OES_EGL image_external) 的 
使 用 ， 使 用 指令 如 下 : 


#extension GL_OES_EGL_ image_ external : require 


这 些 shader 也 必须 使 用 samplerExternalOES 采 样 方式 来 声明 纹理 ， 
其 在 FragmentShader 中 的 代码 如 下 : 


static char* GPU_FRAME_FRAGMENT_SHADER = 

"#extension GL_OES_EGL_image_external : require \n" 
"precision mediump float; \n" 
"uniform samplerExternalOES yuvTexSampler,; \n" 


"varying vec2 yuUVTexCoords ; \n" 
mm 


"void main() { 
gl_FragColor = texture2D(yuvTexSampler, yuvTexCoords); \n" 
ey \n",; 


至 此 ， 这 种 扩展 类 型 的 纹理 ID 从 创建 到 设置 参数 ， 再 到 真正 的 泻 
染 整 个 过 程 已 经 处 理 完毕 ， 弄 清楚 了 这 种 特殊 纹理 ID 的 使 用 方法 之 
后 ， 接 下 来 再 看 一 下 具体 的 旋转 角度 问题 ， 因 为 在 使 用 摄像 头 的 时 候 
很 容易 在 这 个 地 方 踊 到 坑 ， 比 如 手机 摄像 头 预 览 的 时 候 会 出 现 倒立 、 
镜像 等 问题 ， 下 面 融 来 彻底 地 解决 这 类 问题。 


摄像 头 采集 出 来 的 视频 都 是 横 屏 的 ， 比 如 开发 者 为 摄像 头 设置 的 
预览 大 小 是 640x480， 实 际 上 摄像 尖 采 集 出 来 的 视频 帧 宽 是 640， 高 是 
480， 并 且 图 片 也 是 横向 采集 的 。 正 常 来 讲 ， 用 户 使 用 手机 时 都 是 竖 直 
方向 的 ， 所 以 需要 旋转 90 度 或 者 270 度 用 户 才 可 以 正确 地 看 到 自己 的 预 
览 效 果 。 而 具体 旋转 多 大 角度 需要 在 当前 这 颗 摄 像 头 的 CameraInfo 中 获 
得 ， 不 同 的 手机 甚至 是 不 同 的 系统 都 会 不 一 样 。 并 且 如 采 坪 表 置 摄像 
头 的 话 ， 还 需要 再 做 一 个 VFlip (假设 图 像 是 横向 采集 出 来 的 所 以 要 做 
竖 直 翻转 ， 如 果 是 已 经 旋转 过 了 的 就 要 做 横向 翻转 ) 用 于 修复 镜像 的 
问题 ， 下 面 束 用 实际 的 图 片 来 分 别 看 一 下 前 置 摄 像 尖 和 后 置 摄 像 头 的 
具体 渔 染 流程 。 


百 完 我 们 来 看 一 张 摄像 头 要 实际 采集 的 物体 ， 如 图 6-4 所 示 。 
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图 6-4 


在 使 用 手机 的 摄像 头 去 采集 这 个 物体 时 ， 如 有 果 有 是 前 置 摄像 头 ， 那 
么 采集 得 到 的 图 片 将 如 图 6-5 最 左边 的 图 片 所 示 (摄像 头 的 CameraInfo 
中 取出 来 的 角度 是 270 度 ) ， 对 此 ， 应 该 按照 摄像 头 的 旋转 角度 将 图 片 
顺 时 针 旋 转 〈 注 意 这 里 一 定 是 顺 时 针 ) ， 旋 转 270 度 之 后 将 得 到 如 图 6-5 
中 间 的 图 片 ， 最 后 再 进行 镜像 处 理 ， 得 到 如 图 6-5 最 右边 的 图 片 ， 最 终 
用 户 在 手机 屏幕 中 看 到 的 预览 才 是 预期 的 图 像 。 


FE | a is 
J my ET 中 mn 
[> (qq 
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图 6-5 


如 果 是 后 置 摄像 头 ， 那 么 一 般 情况 下 从 摄像 头 的 CameraInfo 中 取出 
来 的 角度 是 90 度 ， 当 然 这 一 点 会 根据 RM 厂商 来 决定 ， 比 如 LG 厂商 的 
Nexus 5X 设 备 取出 来 的 角度 就 是 270 度 ， 不 论 是 多 少 度 ， 摄 像 头 采集 出 
来 的 图 像 在 旗 竺 过 该 角度 之 后 肯定 会 是 一 个 正常 的 图 像 ， 旗 针 流 程 如 

6-6 有 不。 
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后 置 摄像 头 采 集 出 来 图 像 显示 在 屏幕 的 图 像 
图 6-6 


如 果 是 LG 厂 商 的 Nexus 5X 或 者 HUAWEI 广 商 的 Nexus 6P 这 两 款 设 
备 系统 升级 之 后 ， 我 们 对 图 像 后 置 摄像 头 的 处 理 将 如 图 6-7 所 示 。 
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后 弓 摄 像 头 采集 出 来 图 像 显示 在 屏幕 的 图 像 
图 6-7 


那么 接 下 来 就 讲解 一 下 岁 像 的 旋转 和 镜像 。 在 OpenGL ES 中 这 个 
问题 其 实 束 是 如 何 来 确定 物体 的 坐标 和 纹理 坐标 ， 尽 管 在 第 4 章 中 已 经 
讲解 过 这 部 分 内 容 ， 而 在 这 里 由 于 既 要 做 旋转 义 要 做 镜像 操作 ， 所 以 
需要 先 回 顾 一 下 物体 的 坐标 系 ， 如 图 6-8 所 示 。 


通过 如 下 数组 来 规定 物体 坐标 : 


GLfloat squareVertices[8] = { 


1 // 物体 左下 角 
1.0，-1.0， // 物体 右 下 角 
-1.0, 1.0, // 物体 左上 角 
1.0, 1.0 // 物体 右上 角 


下 面 再 回顾 一 下 OpenGL 的 纹理 坐标 系 ， 如 图 6-9 所 示 。 
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OpenGL 二 维 纹 理 坐 标 
图 6-9 
然后 给 出 不 做 任何 旋转 的 纹理 坐标 : 


GLfloat textureCoordNoRotation[8] = { 
// 图 像 的 
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0, 0.0 角 
.0, 1.0, // 图 像 的 左上 角 
0, 1.0 上 


再 给 出 顺 时 针 旋 转 90 度 的 纹理 坐标 ， 大 家 可 以 想象 一 下 ， 将 图 6-9 
顺 时 针 旋 转 90 度 ， 然 后 再 把 对 应 的 左下 、 右 下 、 左 上 、 右 上 的 坐标 点 
写 下 来 ， 如 下 所 示 : 


GLfloat textureCoords[8] = { 

// 图 像 的 右 下 和 角 
0, 1.0 // 图 像 的 右上 角 
.0, 0.0, // 图 像 的 左下 角 
0, 1.0 // 图 像 的 左上 角 
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现在 ， 再 给 出 顺 时 针 旋 转 180 度 的 纹理 坐标 : 


GLfloat textureCoords[8] = { 
1.0, 1.0, // 图 像 的 右上 和 角 
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之 后 给 出 顺 时 针 旋 转 270 度 的 纹理 坐标 : 


GLfloat texturecoords[8] = { 
0.0, 1.0, // 图 像 的 z 
0.0, 0.0, // 图 像 的 左下 角 
1.0, 1.0, // 图 像 的 右上 角 
1.0, 0.0 // 图 像 的 右 下 角 


还 记得 第 4 章 中 讲 过 的 计算 机 图 像 的 坐标 系 与 OpenGL 的 坐标 系 有 
什么 不 同 吗 ? 它们 的 y 轴 上 坐标 恰好 是 相反 的 ， 所 以 这 里 要 对 每 一 个 纹理 
坐标 做 一 个 VFlip 的 变换 ( 即 把 每 一 个 顶点 的 y 值 由 0 变 为 1 或 者 由 1 变 为 
0) ， 这 样 束 可 以 得 到 一 个 正确 的 图 像 旋转 了 。 而 前 置 摄 像 头 还 存在 镜 
像 的 问题 ， 因 此 需要 对 每 一 个 纹理 坐标 做 一 个 HFlip 的 变换 ( 即 把 每 一 
个 顶点 的 x 值 由 0 变 为 1 或 者 由 1 变 为 0) ， 从 而 让 图 片 在 预览 界面 中 看 起 
来 束 像 在 镜子 中 的 一 样 。 


上 面 的 步骤 其 实 就 是 将 一 个 特殊 格式 (OES) 的 纹理 ID 经 过 处 理 
和 旋转 ， 使 其 变 成 正常 格式 (RGBA) ， 那 么 接 下 来 就 可 以 把 该 纹理 ID 
演 染 到 屏幕 上 去 了 ， 但 是 在 这 里 还 要 再 吗 唆 一 句 ， 因 为 该 纹理 ID 的 帘 
和 高 其 实职 是 摄像 头 捕捉 过 来 的 高 和 宽 (因为 我 们 做 了 一 个 90 度 或 者 
270 度 的 旋转 ) ， 目 标 是 要 将 其 浑 染 到 SurfaceView 上 面 去 ， 但 是 如 果 
Java 层 为 我 们 提供 的 SurfaceView 的 宽 高 和 处 理 过 后 的 该 纹理 ID 的 宽 高 
不 一 致 ， 那 么 这 一 帧 图 像 束 会 出 现 压缩 或 者 拉 伸 的 问题 ， 所 以 在 演 染 
0 时 候 需要 进行 一 个 自 适 配 ， 让 纹理 按照 屏幕 比例 自动 填 


首先 来 看 一 下 前 面 的 纹理 坐标 ，x 从 0.0 到 1.0 就 说 明 要 把 纹理 的 x 轴 
方向 全 都 绘制 到 物体 表面 (整个 SurfaceView) 上 去 ， 而 如 果 我 们 只 想 
绘制 一 部 分 ， 比 如 中 间 的 一 半 ， 那 么 就 可 以 将 x 轴 的 坐标 写成 0.25 到 
0.75， 相 同 的 原则 一 样 被 应 用 到 y 轴 上 。 那 么 这 个 0.25 和 0.75 是 如 何 出 来 
的 呢 ? 答案 很 简单 ， 要 想 不 被 拉 伸 ， 那 么 SurfaceView 的 宽 高 比例 和 纹 
理 的 宽 高 比例 就 应 该 是 相同 的 。 假 设 这 一 张 纹理 的 宽 为 texWidth， 纹 理 
的 高 为 texHeight 以 及 物体 的 宽 为 screenWidth， 物 体 的 高 为 


screenHeight， 旦 无 论 是 宽 还 是 高 ， 都 是 float 类 型 的 ， 那 么 就 可 以 利用 
下 面 的 公式 来 完成 日 动 填充 的 坐标 计算 : 


float textureAspectRatio = texHeight / texwidth,; 
float viewAspectRatio = screenHeight / ScreenwWidth 
float xoffset = 0.0f' 
float yoffset = 0.0of; 
if(textureAspectRatio > ViewAspectRatio){ 
// Update Y offset 
int expectedHeight = texHeight*screenwidth/texwidth+0.s5f; 
yoffset = (expectedHeight - screenHeight) / (2 * expectedHeight); 
} else if(textureAspectRatio < viewAspectRatio){ 
// Update x offset 
int expectedwidth = texHeight * screenwidth / screenHeight + 0.5); 
xoffset = (texwWidth - expectedWwWidth)/(2*texwidth); 
} 


计算 得 到 的 xOffset 与 yOffset 分 别 用 于 在 纹理 坐标 中 替换 挥 0.0 的 位 
置 ， 利 用 1.0-xOffset 以 及 1.0-yOffset 来 替换 掉 1.0 的 位 置 ， 最 终 将 得 到 一 
个 纹理 坐标 矩阵 如 下 : 


GLfloat textureCoordNoRotation[8] = { 


xoffset, yoffset, 
1.0 - xOoffset, yoffset, 
xoffset, 1.0 - yoffset, 
1.0 - yoffset, 1.0 - yoffset 


至 此 ， 摄 像 头 预 多 流 程 束 可 以 随 痢 摄像头 所 采集 的 各 帆 图 像 正常 
地 绘制 下 去 了 ， 从 而 实现 整个 预 宽 的 过 程 。 


当 用 户 切 换 摄 像 头 的 时 候 ， 可 以 同 Native 层 发 送 一 个 指令 ，Native 
层 会 在 泻 染 线 程 中 关闭 当前 摄像 尖 ， 然 后 重新 打开 为 外 一 个 摄像 类 ， 
并 配置 参数 ， 以 及 设置 预 金 的 Surface-Texture， 最 后 调用 开始 预览 
1 以 切换 成 功 ， 用 户 看 到 的 束 是 摄像 头 切 换 之 后 的 预 咒 画 


当 我 们 最 终 关 闭 预 筑 时 ， 首 先 要 停止 整个 演 染 线程 ， 然 后 释放 掉 
所 建立 的 Surface-Texture， 之 后 再 将 摄像 头 的 PreviewCallback 设 置 为 
null， 最 终 天 闭 并 旦 释放 摄像 头 。 整 个 流程 代码 如 下 : 


If (mCameraSurfaceTexture != null) { 
mCameraSurfaceTexture.release(); 
mCameraSurfaceTexture = null; 


} 

if (null != mCamera) { 
mCamera.setPpreviewCallback(null]l); 
mCamera.release(); 
mCamera = null; 


} 


至 此 ， 摄 像 头 预 多 部 分 已 经 全 部 讲解 完毕 ， 这 是 十 分 重要 的 ， 对 
于 后 面 搭建 整个 录制 视频 的 项 目 以 及 后 续 视 频 直 播 的 项 目 来 说 ， 这 都 
征 最 基础 的 部 分 ， 所 以 请 读者 好 好 熟悉 这 一 部 分 。 


本 蔬 的 代码 实例 在 代码 仓库 中 的 CameraPreview 项 目 中 ， 运 行 项 目 
之 后 进入 摄像 头 预 宽 界 面 ， 可 以 看 到 摄像 头 的 预 完 ， 点 击 右 上 和 角 的 切 
换 摄 像 头 按钮 可 以 进行 摄像 头 的 切换 操作 。 


6.2.2 ”iOS 平台 的 视频 画面 采集 


在 iOS 平 台 上 使 用 Camera 来 采集 画面 要 比 在 Android 平 台 上 简单 得 
多 ， 毕 竟 这 里 仪 用 一 种 语言 就 可 以 实现 ， 不 必 像 Android 平 台 那 样 需 要 
在 Java 层 和 Native 层 之 间 进 行 频 繁 的 切换 ， 但 是 要 想 设 计 出 一 个 优秀 的 
可 扩展 的 架构 也 不 是 一 件 容易 的 事情 。 本 市 中 笔者 会 种 领 大 家 设计 并 
实现 一 个 基于 摄像 头 采集 ， 最 终 用 OpenGL ES 演 染 到 UIView 上 ， 并 且 
可 以 文 持 后 期 视频 特效 处 理 ， 以 及 编码 视频 帧 的 架构 。 首 移 来 看 一 下 
整体 架构 图 ， 如 图 6-10 所 示 。 
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图 6-10 中 所 描述 的 是 ， 首 先 利 用 系统 的 Camera 采 集 出 YUV 的 图 

像 ， 然 后 泻 染 到 一 个 纹理 对 象 上 ， 为 了 方便 扩展 ， 将 该 纹理 对 象 作为 
Filter 的 输入 纹理 对 象 ， 调 用 Filter 进 行 图 像 处 理 (使 用 OpenGL ES 来 处 
理 ) ， 该 Filter 还 会 有 一 个 输出 纹理 对 象 ， 可 将 该 输出 纹理 对 象 作 为 下 
一 级 组 件 GLImageView 或 者 将 来 扩展 出 来 的 组 件 VideoEncoder 的 输入 纹 
理 对 象 ， 而 这 两 个 组 件 将 分 别 用 于 进行 屏幕 洽 染 和 编码 操作 。 这 样 吏 
可 以 实现 预览 的 场景 ， 并 且 还 可 以 满足 我 们 将 来 要 做 编码 以 及 做 图 像 
处 理 的 需求 。 


授 下 来 分 析 一 下 该 架构 。 


要 知道 ， 每 个 世上 点 的 处 理 都 是 一 个 OpenGL 的 演 染 过 程 ， 所 以 为 每 
个 节点 建立 一 个 Program 是 必 不 可 少 的 ， 我 们 不 可 能 在 每 个 节点 中 都 去 
编写 编译 Shader、 链 接 Program 等 基本 操作 ， 所 以 要 先 抽 取出 一 个 类 
一 一 ELImageProgram (EL 是 整个 项 目的 前 绥 ) ， 用 于 把 OpenGL 的 


Program 的 构建 、 查 找 属性 、 使 用 等 这 些 操作 以 面向 对 象 的 形式 封装 起 
来 ， 每 个 市 点 都 会 有 一 个 该 类 的 引用 实例 。 


观察 每 个 节点 的 输入 ， 会 发 现 它们 都 是 一 个 纹理 对 象 实际 上 是 
一 个 纹理 ID) ， 实 际 泻 染 到 一 个 目标 纹理 对 象 的 时 候 ， 还 需要 建立 一 
个 帧 缓存 对 象 ， 并 且 还 要 将 该 目标 纹理 对 象 Attach 到 这 个 帧 缓存 对 象 
上 ， 所 以 这 里 建立 一 个 类 ELImageTextureFrame， 用 于 将 纹理 对 象 和 帧 
缓存 对 象 的 创建 、 绑 定 、 销 毁 等 操作 以 面 癌 对 象 的 方式 封装 起 来 ， 使 
得 每 个 慷 点 的 使 用 都 更 加 方便 。 


要 想 使 用 OpenGL ES， 必 须要 有 上 下 文 以 及 关联 的 线程 ， 之 前 也 
提 到 过 iOS 平 台 为 OpenGL ES 提供 了 EAGL 作 为 OpenGL ES 的 上 下 文 。 
在 整个 架构 的 所 有 组 件 中 ， 要 针对 编码 器 组 件 单独 开辟 一 个 线程 ， 
为 我 们 不 希望 它 阻 塞 预览 线程 ， 从 而 影响 预览 的 流畅 效果 ， 所 以 它 也 
需要 一 个 单独 的 OpenGL 上下文， 并 且 需 要 和 泻 染 线程 共享 OpenGL 上 
下 文 (两 个 OpenGL ES 线程 共享 上 下 文 或 者 共享 一 个 组 ， 则 代表 可 以 
互相 使 用 对 方 的 纹理 对 象 以 及 帧 缓存 对 象 ) ， 只 有 这 样 ， 在 编码 线程 
中 才 可 以 正确 访问 到 预览 线程 中 的 纹理 对 象 、 帧 缓存 对 象 。 


继续 观察 图 6-8， 会 发 现 Camera 和 Filter 这 些 广 点 是 可 以 输出 纹理 对 
象 的 ， 也 就 是 它们 的 目标 纹理 对 象 要 作为 后 一 级 节点 的 输入 纹理 对 
象 ， 另 外 观察 架构 图 还 会 发 现 ，Filter、GLImageView 以 及 VideoEncoder 
需要 上 一 级 节点 提供 输入 的 纹理 对 象 。 发 现 了 这 两 个 特点 之 后 ， 我 们 
就 可 以 抽象 出 以 下 两 个 规则 。 


规则 一 : 凡是 需要 输入 纹理 对 象 的 节点 都 是 Input 类 型 。 
-规则 二 : 凡是 需要 回 后 级 万 点 输出 纹理 对 象 的 节点 都 是 Output 类 


周 


基于 规则 一 ， 我 们 可 以 定义 ELImageInput 这 样 一 个 Protocol， 由 于 
需要 别 的 组 件 为 它 提供 输入 所 需 的 纹理 对 象 ， 所 以 该 Protocol 里 面 定义 
了 两 个 方法 ， 第 一 个 方法 是 设置 输入 纹理 对 象 : 


- (void)setInputTexture:(ELImageTextureFrame *)textureFrame; 


节点 中 的 Filter、GLImageView 以 及 VideoEncoder 都 属于 
ELImageInput 的 类 型 ， 所 以 应 该 实现 该 方法 ， 在 该 方法 的 实现 中 应 该 将 


输入 纹理 对 象 保 存 为 一 个 全 局 变量 。 


此 外 ， 这 些 世 点 还 有 一 个 共同 点 ， 那 融 是 都 需要 进行 泻 染 操作 ， 
所 以 接 下 来 第 二 个 方法 是 执行 泻 染 操作 : 


- (void)newFrameReadyAtTime: (CMTime)frameTime timimgInfo: 
(CMSampleTimingInfo)timimgInfo; 


这 是 上 一 级 节点 (实际 上 是 一 个 Output 节 点 ) 处 理 完毕 之 后 会 调用 
的 方法 ， 在 这 个 方法 的 实现 中 可 完成 浑 染 操作 。 


基于 规则 二 ， 再 来 建立 新 类 ELImageOutput， 其 中 Camera、Filter 节 
点 需要 继承 自 该 类 ， 该 类 描述 为 几 是 继承 自 它 的 节点 都 可 以 同 自己 的 
后 级 市 点 输出 目标 纹理 对 象 ， 所 以 我 们 首先 建立 两 个 属性 ， 一 个 是 后 
级 节点 列表 ; 男 一 个 是 目标 纹理 对 象 。 代 码 如 下 : 


ELImageTextureFrame *outputTexture; 
NSMutableArray *targets,; 


为 什么 后 级 节点 是 列表 类 型 ? 因为 后 级 节点 有 可 能 包含 了 多 个 目 
标 对 象 ， 像 Filter 贡 点 ， 既 要 输出 给 GLImageView 又 要 和 输出 给 
VideoEncoder， 而 这 个 targets 里 面 的 对 象 又 是 什么 呢 ? 实际 上 就 是 之 前 
定义 的 协议 ELImageInput 类 型 的 对 象 ， 这 是 因为 OutputT 点 的 后 级 节点 
肯定 是 一 个 Input 的 万 点。 另外 该 类 还 得 提供 增加 和 删除 目标 节点 的 方 


- (void)addTarget:(id<ELImageInput>)target 
- (void)removeTarget :(id<ELImageInput>)target ， 


这 两 个 方法 可 用 于 操作 targets 属 性 ， 在 每 一 个 真正 继承 
ELImageInput 类 的 节点 执行 演 染 过 程 结 束 之 后 ， 都 会 遍历 targets 中 所 有 
的 目标 节点 〈 即 ELImageInput) 执行 设置 输出 纹理 对 象 方法 ， 并 执行 下 
一 个 节点 的 泻 沫 过 程 。 代 码 如 下 : 


// Do Render Work 
for (id<ELImageInput> currentTarget in targets){ 
[currentTarget setInputTexture:outputTextureFrame]; 


[currentTarget newFrameReadyAtTime:frameTime timimgInfo:timimgInfo]; 


基于 上 面 的 分 析 ， 我 们 可 以 画 出 节点 的 类 图 关系 ， 如 图 6-11 所 示 。 
图 中 的 类 ELImage-Context 是 需要 重点 讲解 的 一 个 地 方 ， 由 于 OpenGL 
ES 泻 染 操作 必须 执 J 在 绑 定 了 OpenGL 上 下 文 的 线程 中 ， 而 且 由 于 其 对 
于 客户 端 代 码 的 调用 ， 需 要 在 调用 线程 和 OpenGL ES 的 线程 之 间 进 行 
频 楷 的 切换 ， 所 以 在 该 类 中 提供 一 个 静态 方法 可 以 获得 具有 OpenGL 上 
| 些 OpenGL ES 演 染 操作 可 以 在 该 线程 中 直接 执 
， 上 其 0 


+ (void)useImageProcessingContext,; 
[[ELImageContext sharedImageProcessingContext] useAsCurrentContext]; 
- (void)useAsCurrentContext,; 


EAGLContext *imageProcessingContext = [self context]; 
if ([EAGLContext currentContext] != imageProcessingContext) 


[EAGLContext setCurrentContext:imageProcessingContext]; 


a 
ELImageOutput 


实现 


ELImageOutput 


VideoEncoder 


Camera 


国 J 


ELlmageContext ELlmageProgram | ELlmageTextureFrame 
\ 了 \ J 区 
图 6-11 
由 于 GLImageView 在 前 面 的 章节 中 已 经 实现 过 了 ， 这 里 就 不 再 袭 


述 ， 读 者 可 以 直接 到 实例 中 查看 源码 ， ed 6.4.3 
节 将 会 实现 VideoEncoder， 将 在 第 9 章 中 再 去 实现 Filter。 那 么 接 下 来 就 


来 学 习 Camera 的 实现 ， 这 将 分 为 两 部 分 来 进行 讲解 ， 第 一 部 分 是 摄像 
头 的 配置 ， 第 二 部 分 是 摄像 头 采 集 到 的 YUV 数 据 应 该 如 何 构 转 换 为 纹 
理 对 和 象 ， 以 便 可 以 输出 给 后 续 的 节点 进行 处 理 与 泻 染 。 

1. 摄 像 头 配置 


既然 要 使 用 摄像 头 ， 就 要 使 用 AVCaptureSession， 因 为 在 iOS 平 台 
开发 中 只 要 是 与 便 件 相关 的 都 要 从 会 话 开 始 进行 配置 : 


AVCaptureSession* captureSession; 
captureSession = [[AVCaptureSession alloc] init]; 


然后 需要 配置 AVCaptureDeviceInput， 其 实 该 变量 就 是 用 于 指定 需 
要 使 用 哪 一 个 摄像 头 ， 比 如 ， 以 下 是 使 用 前 置 摄像 头 的 代码 : 


AVCaptureDevice * captureDevice = nil， 
NSArray *devices = [AVCaptureDevice deviceswithMediaType:AVMediaTypeVideo]; 
for (AVCaptureDevice *device in devices) { 
If ([device position|] == AVCaptureDevicePositionFront) { 
captureDevice = device; 


} 


captureInput = [[AVCaptureDeviceInput alloc] initwithDevice: 
captureDevice error:nil]; 


接着 需要 配置 AVCaptureVideoDataOutput， 其 实 该 变量 是 用 于 配置 
如 何 接 收 摄像 头 采 集 的 数据 的 : 


dispatch_queue_t dataCcallbackQueue 

dataCcallbackQueue = dispatch_queue_create("dataCcallbackQueue"， 
DISPATCH_QUEUE_SERIAL ) 

captureoutput = [[AVCaptureVideoDataOutput alloc] init]; 

[_captureOutput setSampleBufferDelegate:self queue:dataCcallbackQueue]; 


如 上 述 代 码 所 示 ， 在 构建 出 captureOutput 实 例 之 后 ， 要 想 获取 摄像 
头 采集 的 数据 ， 就 需要 传 入 类 型 为 
AVCaptureVideoDataOutputSampleBufferDelegate 的 实例 和 一 个 
dispatch_queue， 所 以 这 里 分 配 了 线程 队列 以 及 实现 该 类 本 号 所 要 求 的 
Delgate， 然 后 配置 给 captureOutput 实 例 对 象 。 接 下 来 需要 设置 像素 格 
式 ， 摄 像 头 默认 使 用 的 表示 格式 为 YUVFullRange 类 型 ，Full]Range 表 示 
YUV 的 取 值 范围 是 从 0~255， 而 另外 一 种 类 型 YUVVideoRange 则 是 为 


了 防止 洲 出 ， 将 YUV 的 取 值 范围 设置 为 从 16~235。 不 同 的 Range 对 于 
后 续 将 YUV 格 式 转换 为 RGBA 格 式 的 时 候 所 使 用 的 矩阵 (转换 公式 ) 

是 不 同 的 ， 所 以 这 里 需要 根据 所 支持 的 格式 来 对 摄像 头 进 行 设置 ， 并 
且 记 录 下 来 以 供 后 面 确定 RGBA 的 转换 矩阵 所 用 。 


现在 ， 将 captureInput 实 例 和 captureOutput 实 例 配置 到 
CaptureSession 中 ， 代 码 如 下 : 


If ([self.captureSession canAddInput:self.captureInput]) { 
[self.captureSession addInput:self.captureInput]; 


} 
If ([self.captureSession canAddOutput:self.captureOutput]) { 
[self.captureSession addOutput:self.captureOutput]; 
} 


调用 captureSession 设 置 分 辨 率 的 方法 ， 稍 见 的 分 辨 率 及 其 设置 代 
码 如 下 : 


NSString* highResolution = AVCaptureSessionpreset1280x720; 
NSString* lowResolution = AVCaptureSessionpreset640x480; 
[_captureSession setSessionPreset:[NSString stringwithString: highResolution]]; 


调用 CaptureSession 的 beginConfiguration 方 法 ， 配 置 整 个 摄像 头 会 
话 。 最 后 取出 capture-Output 中 的 AVCaptureConnection 来 配置 摄像 头 输 
出 的 方向 ， 这 一 点 是 非常 重要 的 ， 如 采 不 配置 该 参数 ， 那 么 摄像 头 默 
认得 出 的 瓯 是 横 回 的 图 片 ， 设 置 为 纵 癌 图 片 输出 的 代码 如 下 所 示 : 


conn ,Videoorientation = AVvCaptureVideoOrientationportrait; 


当然 ， 也 可 以 为 CaptureInput 设 置 帆 率 等 信息 ， 这 里 将 不 再 芍 壕 ， 
大 家 可 以 参考 代码 仓库 中 的 源码 进行 设置 。 


2. 摄 像 头 采集 数据 处 理 


上 文 已 经 为 本 类 实现 了 
AVCaptureVideoDataOutputSampleBufferDelegate 接 口 〈 协 议 ) ， 由 于 我 
们 要 获取 摄像 头 采 集 的 数据 ， 所 以 这 里 需 重 写 该 Protocol 里 面 约定 的 方 
法 ， 也 就 是 摄像 头 用 来 输出 数据 的 方法 ， 签 名 如 下 : 


-(void) captureOutput: (AVCaptureOutput*)captureOutput 
didOoutputSampleBuffer:(CMSampleBufferRef)sampleBuffer 
fromConnection: (AVCaptureConnection*)connection 


上 壕 方法 会 返回 具体 是 哪 一 个 captureOutput 以 及 connection， 但 是 
最 重要 的 还 是 CMSample-Buffer 类 型 的 sampleBuffer， 其 中 实际 存储 看 
摄像 头 采 集 到 的 图 像 ，CMSampleBuffer 结 构 体 由 以 下 三 个 部 分 组 成 。 


:CMTime: 代表 了 这 一 帧 岁 像 的 时 间 。 
.CMVideoFormatDescription: 代表 了 对 于 这 一 帧 图 像 格式 的 描述 。 
.CVPixelBuffer: 代表 了 这 一 帧 图 像 的 具体 数据 。 


在 该 回调 函数 中 ， 需 要 把 摄像 头 采 集 到 的 YUV 数 据 转换 为 纹理 对 
象 ， 所 以 要 进行 OpenGL 的 泻 染 操作 ， 前 文中 提 到 过 一 个 问题 ，iOS 平 
台 不 允许 App 进 入 后 台 的 时 候 还 进行 OpenGL 的 洽 染 操作 ， 如 采 App 依 
然 进 行 泻 染 操 作 的 话 ， 那 么 系统 就 会 强制 杀 挥 该 App。 通 用 的 处 理 方式 
就是 之 前 在 播放 絮 中 也 用 到 过 的 方式 ， 即 为 App 注 册 
applicationWillResignActive 和 applicationDidBecomeActive 的 通知 ， 在 这 
两 个 方法 中 将 该 类 中 的 实例 变量 shouldEnableOpenGL 设 置 为 NO 和 
YES。 而 在 回调 函数 中 ， 处 理 代 码 如 下 : 


-(void) captureOutput: (AVCaptureOutput*)captureOutput didoutputSampleBuffer: 

id t Output Capt Output* t Output didoutputS 1 ff 
(CMSampleBufferRef)sampleBuffer fromConnection: 
(AVCaptureconnection* )connection 


if (self,shouldEnableOpenGL) { 
If (dispatch_semaphore wait(_frameRenderingSemaphore, 
DISPATCH_TIME_NOW) != 0) { 
return; 


CFRetain(sampleBuffer ) ， 
runAsyncOnVideoProcessingQueue(^{ 
[self processVideoSampleBuffer:sampleBuffer]; 
CFRelease(sampleBuffer ) ， 
dispatch_semaphore_signal(_frameRenderingSemaphore ) ， 


}); 


上 述 代 码 中 ， 首 先 要 判断 该 应 用 程序 进入 后 台 的 布尔 型 变量 ， 如 
果 是 NO 则 不 执行 任何 操作 ;如 果 是 YES 则 需要 保证 上 一 次 泻 染 已 经 结 


束 了 (通过 dispatch_semaphore 的 wait 来 确定 ) ， 否 则 丢 奔 当前 帧 ， 然 后 
使 用 CFRetain 锐 定 该 sampleBuffer， 因 为 真正 操作 sample-Buffer 的 地 方 
是 在 OpenGL ES 线程 中 ， 所 以 这 里 必须 先 将 其 保留 (Retain) 住 ， 等 这 
一 次 OpenGL ES 的 泻 染 操作 执行 完毕 之 后 ， 再 使 用 CFRelease 释 放 挥 该 
sampleBuffer， 最 后 疝 semaphore 发 送 一 个 signal 指 令 表 明 可 以 继续 处 理 
下 一 帧 视频 帧 。 那 么 剩 下 的 丈 是 如 何 将 该 sampleBuffer 泻 染 成 为 一 个 约 
理 对 象 ， 并 且 调 用 后 续 的 targets 进 行 泻 桨 


首先 ， 取 出 该 sampleBuffer 中 的 真实 数据 ， 即 CVPixelBuffer 类 型 的 
实例 ， 然 后 拿 出 该 CVPixelBuffer 里 面 YUV 格 式 的 矩阵 key， 该 矩阵 key 
用 于 判断 转换 格式 是 ITU601 格 式 还 是 ITU709 格 式 。ITU601 是 标清 电视 

(SDTV) 的 标准 ， 而 ITU709 是 超 清 电 视 (HDTV) 的 标准 ，YUV 转 换 
为 RGB 的 矩阵 是 根据 标清 标准 或 者 超 清 标 准 ， 以 及 前 面 提 到 的 
YUVFullRange 和 YUVVideoRange 共 同 决定 的 。 其 中 ITU601 标 准 分 为 
YUVFullRange 和 YUVVideoRange， 而 ITU709 标 准 不 区 分 Rang， 得 到 算 
阵 之 后 ， 在 泻 染 过 程 中 将 使 用 该 矩阵 来 做 YUV 格 式 到 RGB 格 式 的 转 
换 ， 下面 先 来 看 一 下 三 个 矩阵 : 


GLfloat colorCconversion601Default[] = { 
1.164, 1.164, 1.164, 
0.0, -0.392, 2.017， 
1.596, -0.813, 0.0, 


}; 
GLfloat colorConversion601iFullRangeDefault[] = { 
.0, 1.0, 
0.0, -0.343, 1. 765, 
1.4, -0.711, 0.0, 


}; 

GLfloat colorCconversion709Default[] = { 
1.164, 1.164, 1.164, 
0.0, -0.213, 2.112, 
1.793, -0.533, 0.0, 


然后 调用 ELImageContext 为 当前 线程 设置 OpenGL 上 上 下文， 由 于 
ELVideoCamera 类 继承 自 ELImageOutput， 所 以 要 根据 宽 高 分 配 出 一 个 
outputTexture， 并 且 绑 定 该 Texture 的 Frame-Buffer (代表 该 泻 染 过 程 的 
目标 就 是 这 个 纹理 对 象 ) 。 在 泻 染 之 前 ， 让 
YUV 数 据 关 联 到 两 个 纹理 ID 上 ， 如 有 果 是 在 其 他 平台 上 ， 则 只 能 通过 
OpenGL ES 提供 的 glTexImage2D 将 内 存 中 的 数据 上 传 到 显卡 的 一 个 纹 
理 ID 之 上 ， 但 是 这 种 内 存 和 显存 之 间 的 数据 交换 效率 是 很 低 的 ， 0 
平台 上 的 CoreVideo 这 个 framework 中 提供 了 


CVOpenGLESTextureCacheCreateTextureFromImage 方 法 ， 可 以 使 得 整 
个 交换 过 程 更 加 高 效 ， 因 为 CVPixelBuffer 是 YUV 数 据 格式 的 ， 所 以 可 
以 分 配 以 下 两 个 纹理 对 象 : 


CVOpenGLESTextureRef luminanceTextureRef = NULL， 
CVOpenGLESTextureRef chrominanceTextureRef = NULL; 


之 后 ， 必 须 锁定 CVPixelBuffer， 因 为 CVPixelBuffer 这 个 API 在 官方 
文档 上 描述 的 是 像素 数据 存储 在 主 内 存 中 。 对 于 该 主 内 存 ， 笔 者 个 人 
理解 应 该 不 是 普通 操作 的 内 存 ， 所 以 需要 在 使 用 该 内 存 区 域 之 前 先 锁 
定 该 对 象 ， 在 使 用 完毕 之 后 进行 解锁 。 以 下 代码 可 锁定 该 PixelBuffer: 


CVPixelBufferLockBaseAddress(pixelBuffer, 0); 


将 其 中 的 Y 通 道 部 分 的 内 容 上 传 到 luminanceTexture 中 : 


CVOpenGLESTextureCacheCreateTextureFromImage( 
kCFAllocatorDefault, coreVideoTextureCache, pixelBuffer, 
NULL, GL_TEXTURE_ 2D, GL_LUMINANCE, bufferwidth, 
bufferHeight, GL_LUMINANCE, GL_UNSIGNED_ BYTE, 0, 
&luminanceTextureRef ) ， 


这 里 传 入 了 pixelBuffer 以 及 格式 GL_LUMINANCE ， 还 需要 传 入 帘 
和 高 ， 这 样 该 API 内 部 就 知道 应 该 访问 pixelBuffer 的 哪 一 部 分 数据 了 ， 
当然 ， 还 必须 传 入 一 个 纹理 缓存 ， 并 从 该 纹理 缓存 中 读 取 出 所 创建 的 
纹理 对 象 ， 创 建 该 纹理 缓存 的 代码 如 下 : 


CVOpenGLESTextureCacheCreate(kCFAllocatorDefault, NULL, context, NULL, 
&coreVideoTextureCache) 


只 有 传 入 OpenGL 上 下 文才 可 以 创建 出 该 纹理 缓存 ， 然 后 就 可 以 通 
过 CVOpenGLESTexture. GetName 方 法 来 获取 luminanceTextureRef 的 纹 
理 ID 了 ， 使 用 该 纹理 ID 就 可 以 和 普通 纹理 对 象 一 样 进行 操作 了 。 以 下 
代码 可 将 UV 通道 部 分 上 传 到 chrominanceTextureRef 里 面 去 : 


CVOpenGLESTextureCacheCreateTextureFromImage( 
kCFAllocatorDefault, coreVideoTextureCache, pixelBuffer, 


NULL, GL_TEXTURE_2D, GL_LUMINANCE ALPHA, bufferwidth/2, 
bufferHeight/2, GL_LUMINANCE_ ALPHA, GL_UNSIGNED_BYTE, 1., 
&chrominanceTextureRef ) 


因为 U 和 V 各 占 width*height 的 四 分 之 一 个 像素 ， 即 每 四 个 像素 会 有 
一 个 U 和 一 个 V， 所 以 可 使 用 GL_LUMINANCE_ALPHA 来 表示 ， 即 将 U 
放 到 Luminance 部 分 ， 将 V 放 到 Alpha 部 分 ， 理 解 这 一 点 是 非常 重要 的 ， 
为 这 关乎 后 面 在 FragmentShader 中 如 何 拿 到 正确 的 YUV 数 据 。 

接 下 来 就 是 整个 泻 当 过程 了 ， 其 实在 演 染 过程 中 有 两 点 是 需要 注 
意 的 : 第 一 点 就 是 物体 坐标 和 纹理 坐标 的 确定 ; 第 二 点 就 是 在 
FragmentShader 中 如 何 将 YUV 转 换 为 RGBA 的 表示 格式 。 


首先 来 看 物体 坐标 和 纹理 坐标 的 确定 ， 物 体 坐 标 是 固定 的 ， 具 体 


如 下 
GLfloat Squarevertices[8] = 
/ 09, // 物体 左下 
1.0, 1.0， // 物体 右 | 
1.0 1.0, // 物体 左上 
1.0 1.0 // 物体 右上 


而 纹理 坐标 就 比较 特殊 了 ， 首 先 有 一 点 〈 这 点 在 前 面 的 章 世 中 已 
经 讲 过 很 多 次 了 ) ， 就 是 OpenGL 纹 理 坐 标 系 和 计算 机 坐标 系 不 同 ， 所 
以 默认 情况 下 ， 纹 理 坐 标 如 下 : 


GLfloat textureCoords[8] = { 


进行 旋转 以 及 镜像 的 时 候 都 是 根据 上 述 纹理 坐标 来 实施 的 。 图 6-12 
征 前 置 摄像 头 默 认为 我 们 显示 的 图 像 。 
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前 兽 摄 像 头 采集 出 来 图 像 旋转 过 后 镜像 的 图 像 显示 在 屏幕 的 图 像 
图 6-12 


对 图 于 6-12， 需 要 移 按 照 顺 时 针 旋 转 90 度 ， 由 于 是 前 置 摄像 类， 所 
以 还 得 做 一 个 镜像 处 理 ， 其 纹理 坐标 具体 如 下 : 


GLfloat textureCoords[8] = { 


1.0, 1.0, 
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0 ， 
0 ， 


3 
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如 果 是 后 置 摄像 头 ， 那 么 所 做 的 操作 如 图 6-13 所 示 。 


-局 


后 置 摄像 头 采 集 出 来 图 像 显示 在 屏幕 的 图 像 
图 6-13 
纹理 坐标 如 下 所 示 : 

GLfloat textureCoords[8] = { 
1.0, 1.0, 
1.0, 0.0, 
0.0, 1.0, 
0.0, 0.0 


这 里 需要 特别 注意 就 是 ， 由 于 对 纹理 做 了 90 度 的 旋转 ， 所 以 目标 
纹理 对 象 (output-Texture) 的 宽 和 高 就 是 CVPixelBuffer 的 高 和 宽 了 ， 
这 里 不 要 再 弄 错 。 

上 述 处 理 过 程 是 默认 摄像 头 给 出 的 图 像 处 理 过 程 ， 还 记得 前 面 我 
们 为 摄像 头 做 了 一 个 特殊 的 设置 吗 ? 即 为 AVCaptureConnection 设 置 
videoOrientation 参 数 ， 默 认 是 横向 视频 输出 ， 当 将 该 参数 设置 为 Portrait 
时 ， 即 要 求 摄像 头 紧 直方 向 的 视频 输出 。 这 时 候 目 标 纹理 对 象 
(outputTexture) 的 宽 和 高 就 是 CVPixelBuffer 的 宽 和 高 了 ， 后 置 摄像 头 
采集 出 来 的 图 像 操 作 如 图 6-14 所 示 。 
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后 曾 摄 像 头 采 集 出 来 图 像 显示 在 屏幕 的 图 像 
所 对 应 的 纹理 坐标 为 : 


GLfloat textureCoords[8] = { 
0.0, 1.0, 


1.0, 1.0, 


而 前 置 摄像 头 由 于 镜像 的 原因 ， 所 以 处 理 过 程 如 图 6-15 所 示 。 
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前 性 摄像 头 采 集 出 来 图 像 显示 在 屏幕 的 图 像 
图 6-15 
此 时 的 纹理 坐标 与 后 置 摄像 头 的 每 一 个 坐标 的 X 点 正好 相反 


GLfloat textureCoords[8] = { 
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0. 
1, 
0. 


3 
3 
; 


其 次 ， 来 看 一 下 如 何在 FragmentShader 中 将 YUV 转 换 为 RGBA 格 
式 。 可 能 有 读者 会 有 一 个 疑问 ， 为 什么 非 要 转换 为 RGBA 格 式 呢 ? 因为 
在 OpenGL 中 纹理 的 默认 格式 都 是 RGBA 格 式 的 ， 并 且 也 要 为 后 续 的 纹 
理 处 理 以 及 演 染 到 屏幕 上 打下 基础 ， 最 终 编 码 器 也 是 以 RGBA 格 式 为 基 
础 进行 转换 和 处 理 的 。 在 播放 器 的 章节 中 已 做 过 一 次 YUV 转 RGB 的 操 
作 ， 但 是 由 于 使 用 了 CoreVideo 这 个 framework 下 的 快速 上 传 ， 纹 理 变 得 
不 一 样 了 ， 下 面 就 来 看 一 下 具体 的 FragmentShader: 


varying highp vec2 textureCoordinate; 
uniform sampler2D luminanceTexture; 
uniform sampler2D chrominanceTexture; 
uniform mediump mat3 colorConversionMatrix; 
void main(){ 
mediump vec3 yuv; 
lowp vec3 rgb; 
yuv.x = texture2D(luminanceTexture, textureCoordinate).r; 
yuv.yz = texture2D(chrominanceTexture, textureCoordinate). 
ra - vec2(0.5, 0.5); 
rgb = colorConversionMatrix * yuv; 
gl1_FragColor = vec4(rgb, 1); 


其 中 ，textureCoordinate 就 是 纹理 坐标 ， 而 两 个 sampler2D 类 型 就 是 
我 们 千 注 万 苦 从 CV-PixelBuffer 里 面 上 传 到 显存 中 的 纹理 对 象 ， 而 3x3 的 


矩阵 就 是 前 面 根据 像素 格式 以 及 是 否 为 FullRange 选 择 的 变换 和 矩阵。 在 
前 面 Y 使 用 的 是 GL_LUMINANCE 格 式 ， 所 以 这 里 是 使 用 texture2D 琴 数 
读 取 出 像素 点 ， 然 后 访问 像素 的 r 通 道 束 可 以 获得 Y 通 道 的 值 了 了。 而 UV 
通道 使 用 的 是 格式 GL_ LUMINANCE_ALPHA， 所 以 这 里 是 通过 
texture2D 函 数 获 取 像 素 点 ， 然 后 访问 ra 通道 作为 UV 的 值 ， 但 是 为 什 
和 UV 的 值 要 减 去 0.5 呢 ?换算 为 0-255 就 是 减 去 127， 这 是 因为 UV 是 色 
彩 分 量 ， 当 整 张 图 片 都 是 黑白 的 时 候 ，UV 分 量 是 默认 值 1227， 所 以 这 
里 需要 先 减 去 127， 然 后 再 转换 为 RGB， 否 则 会 出 现 色 彩 不 匹配 的 错 
误 。 最 终 可 以 使 用 传递 进来 的 转换 和 矩阵 乘 以 YUV 得 到 该 像素 点 的 
RGBA 表 示 格 式 。 


6.3 ”音频 的 编码 


本 节 将 讨论 音频 的 编码 ， 第 1 章 中 已 经 分 析 过 音频 编码 的 原理 与 发 
展 历史 ， 本 章 将 以 实践 为 主 ， 利 用 编码 器 完成 编码 场景 下 的 编码 需 
求 。MP3 格 式 是 兼容 性 最 好 的 格式 ， 而 AAC 在 低 码 率 (128Kbit/s 以 
下 ) 场景 下 ， 其 音频 品质 大 大 超过 MP3， 并 且 在 移动 平台 上 ， 无 论 是 
单独 的 音频 编码 ， 还 是 视频 编码 中 的 音频 流 部 分 ， 使 用 得 最 广泛 的 都 
是 AAC 的 编码 格式 。 本 节 将 通过 软件 编码 库 (libfdk_aac 这 个 第 三 方 开 
源 库 ) 以 及 各 个 平台 提供 的 硬件 编码 库 来 编码 AAC 码 流 。 对 于 一 些 其 
他 的 编码 格式 ， 比 如 适用 于 VOIP 通话 的 Ogg 格 式 ， 适 用 于 语言 聊天 的 
AMR 格 式 等 在 本 节 中 不 会 涉及 ， 但 是 这 里 使 用 的 软件 编码 方式 是 以 
FFmpeg 平 台 为 基础 的 ， 所 以 后 期 无 论 想 用 其 他 的 什么 格式 ， 都 可 以 自 
行 配置 编码 库 来 实现 。 本 节 的 输入 就 是 6.1 节 的 录音 器 采集 的 音频 数据 
(其 实 就 是 普通 的 PCM 流 ) ， 当 然 读 者 也 可 以 自行 党 试 使 用 第 5 章 中 
解码 器 模块 的 输出 作为 编码 器 的 输入 ， 其 实 这 就 是 一 个 后 处 理 (post- 
processing) 过 程 的 实践 ， 后 面 还 会 有 一 个 单独 的 项 目 来 完成 这 种 用 户 
的 后 处 理 场景 。 


6.3.1 libfdk aac 编 码 AAC 


软件 编码 AAC， 将 基于 FFmpeg 的 API 来 编写 ， 而 不 像 第 2 章 那 样 
直接 使 用 LAME 库 的 API 来 编码 MP3。 这 样 做 的 好 处 是 ， 只 需要 编写 一 
份 音 频 编 码 的 代码 即 可 ， 对 于 不 同 的 编码 右 ， 只 需要 调整 相应 的 编码 
句 ID 或 者 编码 句 Name， 束 可 以 编码 出 不 同 格式 的 音频 文件 。 当 然 ， 既 
然 要 使 用 第 三 方 库 libfdk_aac 编 码 AAC 文 件 ， 那 么 必须 在 做 交叉 编译 的 
时 候 将 libfdk_aac 库 编译 到 FFmpeg 中 去 。 可 编写 一 个 C++ 的 类 ， 命 名 为 
audio_encoder， 然 后 对 外 提供 三 个 接口 ， 分 别 是 初始 化 、 编 码 以 及 销 
毁 方 法 ， 并 且 要 求 该 类 可 以 同时 运行 在 Android 平 台 和 iOS 平 台 之 上 。 
首先 来 看 一 下 初始 化 接口 : 


int init(int bitRate, int channels, int sampleRate, int bitsPerSample, 
const char* aacFilepath, const char * codec_name); 


对 于 其 中 的 传 入 参数 ， 说 明 如 下 。 


目 完 是 比特 率 ， 也 束 是 最 终 编码 出 来 的 文件 的 码 率 ， 接 看 是 声 道 
数 、 采 样 率 ， 这 两 个 将 不 再 资 述 ， 然 后 是 最 终 编码 的 文件 路 径 ， 最 后 
苹 编 码 右 的 名 字 。 其 实现 步 台 具体 如 下 。 


首先 调用 方法 av_register_all () 将 所 有 的 封装 格式 以 及 编 解码 器 
注册 到 FFmpeg 框 架 中 ; 然后 调用 avformat_alloc_output_context2 方 法 传 
入 输出 文件 格式 ， 分 配 出 上 下 文 ， 即 分 配 出 封装 格式 ， 之 后 调用 
avio_open2 方 法 传 入 AAC 的 编码 路 径 ， 相 当 于 打开 文件 连接 通道 。 前 
面 分 析 过 FFmpeg 的 源码 ， 通 过 上 壕 两 行 代码 可 以 确定 出 Muxer 与 
Protocol， 然 后 束 是 分 配 Codec 的 相关 内 容 了 ， 所 以 接 下 来 要 为 
AVFormatContext 上 下 文 填充 一 轨 AVStream: 


audioStream = avformat_new_stream(avFormatContext，NULL ) ， 


现在 ， 要 为 audioStream 的 Codec 属 性 填充 内 容 了 。Codec 属 性 是 一 
个 AVCodecContext 的 结构 体 类 型 ， 需 要 为 该 结构 体 填 充 如 下 几 个 属 
性 ， 首 先是 codec_type， 赋 值 为 AVMEDIA_TYPE_AUDIO， 代 表 其 是 


音频 类 型 ， 其 次 是 bit_rate、sample_rate、channels 等 基本 属性 ， 然 后 是 
channel_layout 〈 其 表示 的 意义 与 channels 是 一 样 的 ， 只 不 过 可 选 值 是 
两 个 常量 ， 分 别 是 AV_CH LAYOUT_MONO 代 表单 声 道 、 

AV_CH_ LAYOUT_STEREO 代 表 立 体 声 ) ， 最 后 也 是 最 重要 的 
sample_fmt， 代 表 了 如 何 数字 化 表示 采样 ， 使 用 的 是 
AV_SAMPLE_FMT_S16， 即 用 一 个 short 来 表示 一 个 采样 点 ， 这 样 就 把 
AVCodecContext 结 构 体 构造 完成 了 。 


下 面 要 准备 最 重要 的 编码 希 了 ， 通 过 调用 
avcodec_find_encoder_by_name 范 数 来 找 出 对 应 的 编码 絮 ， 然 后 调用 方 
法 avcodec_open2 来 为 该 编码 右上 下 文 打 开 这 个 编码 絮 ， 接 下 来 为 编码 
铬 指定 frame_size 的 大 小 ， 一 般 指 定 1024 作 为 一 帧 的 大 小 ， 至 此 我 们 就 
把 编码 器 部 分 给 分 配 好 了 。 


在 此 需要 注意 的 是 ， 某 些 编码 絮 只 人 允许 特定 格式 的 PCM 作 为 输入 
源 ， 比 如 声 道 数 、 采 样 率 、 表 示 格 式 (比如 LAME 编 码 器 就 不 允许 
SInt16 的 表示 格式 ) 的 要 求 ， 所 以 需要 构造 一 个 重 采样 器 来 将 PCM 数 
据 转 换 为 可 适 配 编码 器 输入 的 PCM 数 据 ， 即 前 面 讲 解 过 的 需要 将 输入 
的 声 道 、 采 样 率 、 表 示 格 式 和 输出 的 声 道 、 采 样 率 、 表 示 格 式 传递 给 
初始 化 方法 ， 然 后 分 配 出 重 采 样 上 下 文 SwrContext。 此外， 还 要 分 配 
一 个 AVFrame 类 型 的 inputFrame， 作 为 客户 端 代码 输入 的 PCM 数 据 存 
放 的 地 方 ， 这 里 需要 知道 inputFrame 分 配 的 buffer 的 大 小 ， 如 上 一 步 所 
述 ， 默 认 一 帧 的 大 小 是 1024， 所 以 对 应 的 buffer (按照 uint8_t 类 型 作为 
一 个 元 素来 分 配 ) 大 小 就 应 该 是 : 


bufferSize = frame_size * sizeof(SINt16) * channels; 


当然 无 需 自 己 进行 计算 ， 可 以 调用 FFmpeg 提 供 的 方法 
av_samples_get_buffer_size 来 帮助 开发 者 计算 。 其 实 这 个 方法 内 部 的 计 
算 公 式 束 是 上 面 所 列 的 公式 。 如 果 需 要 进行 重 采 样 处 理 ， 那 就 需要 客 
外 分 配 一 个 重 采 样 之 后 的 AVFrame 类 型 的 swrFrame， 作 为 最 终 得 到 结 
果 的 AVFrame 。 


在 初始 化 方法 的 最 后 ， 需 要 调用 FFmpeg 提 供 的 方法 
avformat_write_header 将 该 首 频 文 件 的 Header 部 分 写 进 去 ， 然 后 记录 一 
个 标志 isWriteHeaderSuccess， 使 其 为 rue， 因 为 后 续 在 销毁 资源 的 阶段 
需要 根据 该 标志 来 判断 是 否 调 用 write trailer 方 法 ， 即 写 入 文件 尾部 的 


否则 会 造成 Crash， 这 在 前 面 分 析 FFmpeg 源 码 的 时 候 就 已 经 讲 
年 过 了 。 


接 下 来 看 一 下 提供 的 第 二 个 接口 方法 : 


void encode(byte* buffer, int size); 


这 里 传 入 的 参数 是 uint8_t 类 型 的 指针 ， 以 及 这 块 内 存 所 表示 的 数 
据 长 度 ， 具 体 的 实现 是 将 该 buffer 填 充 入 inputFrame， 由 于 前 面 已 经 知 
道 了 每 一 帧 buffer 需 要 填充 的 大 小 是 多 少 ， 所 以 这 里 可 以 利用 一 个 
while 循 环 来 做 数据 的 缓冲， 一 次 性 填充 到 AVFrame 中 去 ， 然 后 调用 编 
人 码 方法 avcodec_encode_audio2， 该 方法 会 将 编码 好 的 数据 放 入 
AVPacket 的 结构 体 中 ， 紧 接着 就 可 以 将 该 AVPacket 类 型 的 结构 体 写 到 
文件 中 去 了 ， 而 调用 av_interleaved_write frame 方 法 ， 则 可 以 将 该 
packet 输 出 到 最 终 的 文件 中 去 。 


和 最后， 来 看 一 下 第 三 个 接口 方法 : 


void destroy() 


上 述 代 码 所 述 方 法 需要 销 又 前 面 所 分 配 的 资源 以 及 打开 的 连接 通 


道 


如 果 初 始 化 了 重 采 样 右 ， 那 么 束 销 毁 重 采样 的 数据 缓冲 区 以 及 重 
采样 上 下 文 ; 然后 销毁 为 输入 PCM 数 据 分 配 的 AVFrame 类 型 的 
inputFrame， 再 判断 标志 isWriteHeaderSuccess 变 量 ， 决 定 是 否 需 要 填 

duration 以 及 调用 方法 av_write_trailer， 最 终 关 闭 编码 器 以 及 连接 通 
道 。 


这 个 类 写 完 之 后 ， 驶 可 以 集成 到 Android 和 iOS 平 台 了 ， 外 异 探 制 
层 需要 初始 化 该 尖 ， 然 后 负责 读 写 文件 调用 encode 方 法 ， 最 终 调 用 销 
驱 质 源 的 方法 。 


本 节 的 代码 实例 ，Android 工 程 是 Android 代 码 仓库 中 的 
FDKAACAudioEncoder 工 程 ，iOS 工 程 是 iOS 的 代码 仓库 中 的 
FDKAACEncoder 工 程 ， 两 个 工程 都 是 将 PCM 文 件 编码 为 一 个 AAC 的 


文件 。 运 行 Android 工 程 之 前 ， 需 要 将 resource 目 了 永 下 面 的 PCM 文 件 放 
日 录 下 的 根 日 录 下 面 ， 最 终 可 以 播放 编码 后 的 AAC 文 件 进行 
试听 。 


6.3.2” Android 平台 的 硬件 编码 器 MediaCodec 


本 方 整 来 看 一 下 如 何 使 用 Android 平 台 提供 的 MediaCodec 编 码 
AAC。 使 用 MediaCodec 编 码 AAC 对 Android 系 统 是 有 要 求 的 ， 必 须 是 
4.1 系 统 以 上 ， 即 要 求 Android 的 版 本 代号 在 Jelly Bean 以 上 。 
MediaCodec 是 Android 系 统 提供 的 人 硬件 编码 器 ， 它 可 以 利用 设备 的 硬件 
来 完成 编码 ， 从 而 大 大 提高 编码 的 效率 ， 还 可 以 降低 电量 的 使 用 ， 但 
是 其 在 兼容 性 方面 不 如 软件 编码 好 ， 因 为 Android 设 备 的 雁 片 化 太 严 
重 ， 所 以 读者 可 以 目 己 衡量 在 应 用 中 是 否 使 用 Android 平 台 的 人 硬件 编码 


等 性 。 


第 3 章 中 讲解 过 AAC 编 码 格 式 ， 其 中 有 一 种 是 ADTS 封 装 格式 ， 习 
外 一 种 瓯 是 裸 的 AAC 的 封 痛 格式。 不论 这 里 所 说 的 是 MediaCodec 编 码 
出 来 的 AAC， 还 是 在 6.3.3 节 将 要 讲解 的 AudioToolbox 编 码 出 来 的 
AAC， 都 是 裸 的 AAC， 即 AAC 的 原始 数据 块 ， 一 个 AAC 原 始 数据 块 的 
长 度 是 可 变 的 ， 对 原始 帧 加 上 ADTS 头 进行 封装 ， 就 形成 了 ADTS 帧 。 
ADTS 的 全 称 是 Audio Data Transport Stream， 是 AAC 音 频 的 传输 流 格 
式 ， 通 常 我 们 将 得 到 的 AAC 原 始 巾 加 上 ADTS 头 进行 封装 后 写 入 文件 ， 
该 文件 使 用 常用 的 播放 絮 即 可 播放 ， 这 是 个 验证 AAC 数 据 是 否 正 确 的 
方法 。 进 行 封 装 之 前 ， 需 要 了 解 相 关 的 参数 ， 如 采样 率 、 声 道 数 、 原 
始 数据 块 的 长 度 等 。 下 面 将 AAC 原 始 数据 帧 加 工 为 ADTS 格 式 的 帧 ， 根 
据 相 关 参 数 填写 组 成 7 字 广 的 ADTS 尖 。 下 面 就 来 分 配 一 下 这 7 个 字 广 : 


int adtsLength = 7; 
char *packet = malloc(sizeof(char) * adtsLength); 


其 中 ， 前 两 个 字 节 是 ADTS 的 同步 字 : 


packet[0] = (char)oxFF; 
packet[1] = (char)oxF9; 


紧 接 着 第 三 个 字 节 是 编码 的 Profile、 采 样 率 下 标 (注意 是 下 标 ， 而 
不 是 采样 率 ) 、 声 道 配 置 (注意 是 声 道 配置 ， 而 不 是 声 道 数 ) 、 数 据 
长 度 的 组 合 〈 注 意 packetLen 是 原始 数据 长 度 加 上 ADTS 头 的 长 度 ) : 


int profile = 2; // AAC LC 

int freqIidx = 4; // 44.1kHz 

int chancfg = 2; 

packet[2] = (byte) (((profile - 1) << 6) + (freqIdx << 2) + (chancfg >> 2)); 


packet[3] = (byte) (((chancfg & 3) << 6) + (packetLen >> 11)); 
packet[4] = (byte) ((packetLen & QOx7FF) >> 3); 
packet[5] = (byte) (((packetLen & 7) << 5) + Oxi1F); 


其 中 具体 的 编码 Profile、 采 样 率 的 下 标 以 及 声 道 数 剖 可 以 从 下 方 这 
个 链接 中 查 到 相关 的 所 有 表示 : 


https:// wiki.multimedia.cx/index.php?title=MPEG-4_Audio#Channel_ Configurations 


最 后 一 个 字 世 也 是 固定 的 : 


packet[6] = (byte) OxFC 


至 此 ，ADTS 头 就 拼接 上 了 ， 对 于 编码 出 一 个 可 以 播放 的 AAC 文 件 
来 讲 ， 这 是 非常 重要 的 ， 而 对 于 MediaCodec 以 及 6.3.3 太 将 要 讲 到 的 
AudioToolbox 编 码 出 来 的 AAC 来 说 ， 都 需要 拼接 上 该 ADTS 头 ， 最 终 文 
件 就 可 以 正确 地 播放 出 来 了 。 


下 面 驶 来 看 看 MediaCodec 如 何 使 用 。 类 似 于 软件 编码 提供 的 三 个 
接口 方法 ， 这 里 也 提供 三 个 接口 方法 ， 分 别 用 于 完成 初始 化 、 编 码 数 
据 和 销毁 编码 器 的 操作 。 首先 来 看 一 下 初始 化 方法 ， 先 构造 一 个 
MediaCodec 实 例 ， 通 过 该 类 的 静态 函数 来 实现 。 构 造 一 个 AAC 的 
Codec， 其 代码 如 下 : 


MediaCodec mediaCodec = MediaCodec.createEncoderByType("audio/mp4a-latm"); 


其 实 该 方法 有 点 类 似 于 前 面 所 讲 的 FFmpeg 中 根据 Codec 的 name 来 
找 出 编码 器 。 构 造 出 该 实例 之 后 ， 就 需要 配置 该 编码 器 了 ， 配 置 编 码 
器 最 重要 的 是 需要 传递 一 个 MediaFormat 类 型 的 对 象 ， 该 对 象 中 配置 的 
是 比特 率 、 采 样 率 、 声 道 数 以 及 编码 AAC 的 Profile， 此 外 ， 还 需要 配置 
输入 Buffer 的 最 大 值 ， 代 码 如 下 : 


MediaFormat encodeFormat = MediaFormat.createAudioFormat (MINE_TYPE, sampleRate, 
channels); 


encodeFormat ,SetInteger(MediaFormat .KEY_BIT_RATE， bitRate ) ， 

encodeFormat ,SetInteger(MediaFormat ,KEY_AAC_PROFILE，Media 
CodecInfo.CodecProfileLevel.AACObjectLCc); 

encodeFormat ,SetInteger(MediaFormat .KEY_MAX_INPUT_SIZE，10 * 1024); 


与 FFmpeg 中 的 配置 编码 硕 类 似 ， 上 述 代 码 也 配置 了 编码 需要 求 的 
输入 ， 现 在 就 将 该 对 象 配 置 到 编码 器 内 部 : 


mediaCodec.configure(encodeFormat, null, null, 
Mediacodec.CONFIGURE_FLAG_ENCODE ) ， 


最 后 一 个 参数 代表 需要 配置 一 个 编码 器 ， 而 非 解 码 器 (如 有 果 是 解 
码 器 则 传递 为 0) 。 调 用 start 方 法 ， 代 表 开 启 该 编码 器 。 


至 此 ， 编 码 絮 已 经 完全 配置 好 了 ， 打 开 编 码 器 ， 现 在 开发 者 可 以 
从 MediaCodec 实 例 中 取出 两 个 buffer， 一 个 是 inputBuffer， 用 于 存放 输 
入 的 PCM 数 据 (类 似 于 FFmpeg 编 码 的 AVFrame) ; 另外 一 个 是 
outputBuffer， 用 于 存放 编码 之 后 的 原始 AAC 的 数据 (类 似 于 FFmpeg 编 
码 的 AVPacket) ， 代 码 如 下 : 


ByteBuffer[] inputBuffers = mediaCodec.getIinputBuffers(); 
ByteBuffer[] outputBuffers = mediacodec.getoutputBuffers() ， 


到 此 ， 初 始 化 方法 已 实现 完毕 ， 下 面 来 看 一 下 编码 方法 ， 
MediaCodec 的 工作 原理 如 图 6-16 所 示 ， 图 6-16 左 边 的 Client 元 际 代 表 要 
将 PCM 放 到 inputBuffer 中 的 某 个 具体 的 puffer 中 去 ， 图 6-16 右 边 的 Client 
元 素 代 表 要 将 编码 之 后 的 原始 AAC 数 据 从 outputBuffer 中 的 某 个 具体 的 
buffer 中 取出 来 ， 图 6-16 中 ， 左 边 的 小 方块 代表 各 个 inputBuffer 元 素 ， 
右边 的 小 方块 则 代表 各 个 outputBuffer 元 素 。 
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代码 实现 具体 如 下 。 


首先 ， 从 mediaCodec 中 该 取出 一 个 可 以 用 来 输入 的 buffer 的 Index， 
然后 填充 数据 ， 并 且 把 填充 好 的 buffer 发 送 给 Codec: 


int bufferIndex = codec.dequeueInputBuffer(-1); 

if (inputBufferIndex >= 0) { 
ByteBuffer inputBuffer = inputBuffers[bufferIindex]; 
inputBuffer.clear(); 
inputBuffer.put(data); 
long time = System,.nanoTime( ); 
codec.queueInputBuffer(bufferIindex, 0, len, time, 0); 


然后 ， 从 Codec 中 读 取 出 一 个 编码 好 的 buffer 的 mdex， 通 过 Index 读 
取出 对 应 的 output-Buffer， 然 后 将 数据 读 取出 来 ， 添 加 上 ADTS 头 部 ， 
写 文件 ， 之 后 再 把 该 outputBuffer 放 回 到 竺 编码 填充 队列 中 去 : 


BufferInfo info = new BufferInfo( ) 
int index = codec.dequeueOutputBuffer(info, ©); 
while (index >= 0) { 
ByteBuffer outputBuffer = outputBuffers[index]; 
if (outputAACDelegate != null) { 
int outPacketSize = info.size + 7; 
outputBuffer.position(info.offset); 
outputBuffer.1imit(info.offset + info.size); 
byte[] outData = new byte[outPacketSizel]; 
// 添加 ADTS 头 信息 
addADTStoPacket(outData, outPacketSize); 
// 将 编码 得 到 的 AAC 数 据 取出 到 目标 数组 中 ， 其 中 7 代表 偏 移 
outputBuffer.get(outData, 7, info.size); 
outputBuffer.position(info.offset); 


邑 


outputAACDelegate.outputAACPacket (outData); 


codec.releaseOutputBuffer(index, false); 
index = mediaCodec.dequeueOutputBuffer(bufferInfo, 0); 


} 


需要 注意 的 是 ， 上 述 代 码 中 的 第 一 行 是 构造 出 一 个 BufferInfo 类 型 
的 对 象 ， 当 开发 者 从 Codec 的 输出 缓冲 区 中 读 取 一 个 buffer 的 时 候 ， 
Codec 会 将 该 buffer 的 描述 信息 放 入 该 对 象 中 ， 后 续 会 按照 该 对 象 中 的 
言 尽 来 处 理 实际 的 内 容 。 


最 后 来 看 一 下 销毁 方法 ， 使 用 完了 MediaCodec 编 码 右 之 后 ， 就 需 
要 停止 运行 并 释放 编码 器 ， 代 码 如 下 : 


if (null != mediaCodec) { 
mediaCodec .stop(); 
mediaCodec.release(); 


} 


外 界 调 用 端 需 要 做 的 事情 是 移 初 始 化 该 类 ， 然 后 读 取 PCM 文 件 并 
调用 该 类 的 编码 方法 ， 实 现 该 类 的 Delegate 接 口 ， 在 重 写 的 方法 中 将 输 
出 之 有 ADTS 头 的 AAC 码 流 直 接 写 文件 ， 最 终 编 码 结束 之 后 ， 调 用 该 类 
的 停止 编码 方法 。 


本 蔬 的 代码 实例 是 代码 仓库 中 的 MediaCodecAudioEncoder 工 程 ， 
运行 之 前 ， 需 要 将 resource 目 孙 下 的 PCM 文 件 放 入 SDCard 目 孙 下 的 根 目 
编码 结束 之 后 ， 可 以 在 对 应 的 目录 下 获取 AAC 文 件 并 播放 试 
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6.3.3 iOS 平台 的 人 硬件 编码 虱 AudioToolbox 


本 厄 将 讲解 iOS 平 台 下 的 人 硬件 编码 器 ， 可 使 用 AudioToolbox 下 的 
Audio Converter Services 来 完成 硬件 编码 ，iOS 平 台 提 供 的 该 服务 从 名 
字 上 来 看 束 古 一 个 转换 服务 ， 那 么 它 能 够 提供 哪 几 个 方面 的 转换 呢 ? 


PCM 到 PCM， 转 换 位 深度 、 采 样 率 以 及 表示 格式 ， 也 包括 交错 存 
储 还 是 平 铺 存储 ， 这 些 与 前 面 讲解 的 FFmpeg 里 的 重 采样 右 非 常 类 似 ; 
最 重要 的 是 还 可 以 做 PCM 到 压缩 格式 的 转换 ， 所 谓 转换 ， 在 这 种 场景 
下 其 实 就 是 可 以 做 编码 或 者 解码 操作 。 可 见 iOS 平 台 在 多 媒体 方面 提 
供 的 API 是 多 么 的 强大 ， 并 且 其 兼容 性 也 非常 好 ， 随 着 学 习 的 深入 ， 
大 家 会 逐渐 了 解 到 更 多 更 方便 的 API， 而 本 节 就 是 利用 它 所 提供 的 编 
码 服务 ， 将 PCM 数 据 编 码 为 AAC 格 式 的 数据 。 


AudioToolbox 中 编码 出 来 的 AAC 数 据 也 是 裸 数据 ， 在 写 入 文件 之 
前 也 需要 添加 上 ADTS 头 信息 ， 最 终 写 出 来 的 文件 才 可 以 被 系统 播放 
器 播放 ， 添 加 头 信息 的 具体 操作 和 6.3.2 节 中 的 操作 是 一 样 的 ， 在 此 不 


类 似 于 软件 编码 提供 的 三 个 接口 方法 ， 这 里 也 提供 了 三 个 接口 方 
法 ， 分 别 用 于 完成 初始 化 、 编 码 数据 和 销毁 编码 器 的 操作 。 在 介绍 这 
三 个 方法 的 实现 之 前 ， 先 定义 一 个 Protocol， 命 名 为 FillDataDelegate， 
需要 客户 问 代 码 来 实现 该 Delegate， 这 里 面 定义 了 三 个 方法 ， 第 一 个 
方法 的 代码 原型 如 下 : 


- (UINt32) fillAudioData: (uint8_t*) sampleBuffer bufferSize:(UInt32) bufferSize; 


当 编码 器 (或 者 说 转换 器 ) 需要 编码 一 段 PCM 数 据 的 时 候 ， 就 通 
过 该 方法 来 调用 客户 端 代码 ， 让 实现 该 Delegate 的 客户 端 代码 来 填充 
PCM 数 据 。 第 二 个 方法 的 代码 原型 如 下 : 


- (void) outputAACPakcet:(NSData*) data presentationTimeMills: 
(int64 _t)presentationTimeMills error:(NSError*) error; 


”每 编码 器 (或 者 说 转换 右 ) 成 功 编码 一 段 AAC 的 Packet 之 后 ， 紧 
接着 就 是 为 这 段 数 据 添加 ADTS 头 信息 ， 然 后 通过 上 面 的 方法 来 调用 
人 人 
原生 中 ， 


- (void) onCcompletion,; 


待 编码 器 (或 者 说 转换 器 ) 结束 之 后 ， 调 用 客户 端 代码 的 这 个 方 
法 ， 让 客户 端 代码 可 以 对 目 己 的 资源 进行 销毁 与 天 闭 等 操作 。 


接 下 来 介绍 编码 右 类 提供 的 三 个 接口 方法 的 实现 ， 首 先是 初始 化 
方法 的 实现 ， 之 前 笔者 曾 多 次 提 到 过 ，iOS 平 台 提供 了 首 视 频 的 API， 
如 果 需 要 用 到 硬件 Device 相 关 的 API， 束 需要 配置 各 种 Session; 如果 要 
用 到 与 提供 的 软件 相关 的 API， 就 需要 配置 各 种 Description 以 摘 述 配置 
的 信息 ， 而 在 这 里 需要 配置 的 Description 就 是 前 面 介绍 的 AudioUnit 演 
分 所 配置 的 Description。 一 说 到 这 里 相信 大 家 就 不 再 阳 生 了 ， 我 们 需 
要 分 别 配置 一 个 pput 和 一 个 output 部 分 的 Description， 用 于 描述 所 提供 
ea ` 采样 率 、 表 示 格 式 、 存 储 格式 、 编 码 方式 等 信息 ， 具 体 

: 码 如 下 ， 


// 构建 InputABSD 

AudioStreamBasicDescription InASBD = {0}; 

UInt32 bytesPerSample = sizeof (SInt16 ) ， 

InASBD .mFormatID = kAudioFormatLinearPCM; 
inASBD.mFormatFlags = kAudioFormatFlagIsSignedIinteger | kAudioFormatF1LagISPacked 
InASBD .mBytesPerPpacket = bytesPerSample * channels,; 
InASBD .mBytesPerFrame = bytesPerSample * channels,; 
inASBD.mChannelsPerFrame = channels; 
inASBD.mFramesPerPacket = 1; 

inASBD.mBitsPerChannel = 8 * channels,; 
inASBD.mSampleRate = inputSampleRate; 
inASBD.mReserved = 0，; 


这 里 配置 的 input 的 Description 是 PCM 格 式 的 ， 表 示 格 式 是 整数 表 
示 并 且 是 交错 存储 的 ， 这 一 点 十 分 关键 ， 因 为 需要 按照 设置 的 格式 填 
充 PCM 数 据 ， 或 者 反 过 来 说 ， 客 户 端 代码 填充 的 PCM 数 据 的 格式 是 什 
么 样 的 ， 这 里 配置 给 input 摘 述 的 mFormatFlags 就 应 该 是 什么 样 的 ， 
和 所 以 填充 的 后 续 几 个 关键 值 都 得 
瑟 以 channels。 


在 iOS 的 音频 流 描述 的 配置 中 ， 最 重要 的 就 是 存储 格式 和 表示 格 
式 的 配置 ， 表 示 格 式 是 指 用 整数 或 者 浮 点 数 表示 一 个 sample;， 存 储 格 
式 是 指 交 错 存 储 或 韭 交 错 存 储 ， 输 出 或 者 输入 数据 都 存储 于 
AudioBufferList 中 的 属性 ioData 中 。 假 设 声 道 是 双 声 道 的 ， 那 么 对 于 区 
错 存 储 (IsPacked) 来 讲 ， 对 应 的 数据 格式 如 下 : 


ioData->mBuffers[0]: LRLRLRLRLRLR... 


二 而 对 于 非 交 错 的 存储 (NonInterleaved) 来 讲 ， 对 应 的 数据 格式 如 


ioData->mBuffers[0]: LLLLLLLLLLLL... 
ioData->mBuffers[1]: RRRRRRRRRRRR... 


这 也 惑 要 求 客户 端 代 人 码 需要 按照 配置 的 格式 朱 述 来 填充 或 者 获取 
数据 ， 否 则 吏 会 出 现 不 可 预知 的 问题 。 接 下 来 再 看 一 下 ， 如 果 要 转换 
成 为 AAC 的 格式 ， 那 么 应 该 如 何 配 置 output 的 Description: 


// 构造 OutputABSD 
AudioStreamBasicDescription outASBD = {0}; 
outASBD.mSampleRate = inASBD.mSampleRate; 
OutASBD .mFormatID = kAudioFormatMPEG4AAC; 
OutASBD .mFormatFlags = kMPEG40bject_AAC_LC; 
OutASBD.mBytesPerPacket = 0; 

OutASBD .mFramesPerPacket = 1024; 

outASBD .mBytesPerFrame = 0; 
outASBD.mChannelsPerFrame = inASBD.mChannelsPerFrame; 
outASBD.mBitsPerChannel = 0; 
OutASBD.mReserved = 0; 


这 里 面 需 要 注意 的 是 ，mFormatID 需 要 配置 成 AAC 的 编码 格式 ， 
Profile 需 要 配置 为 低 运 算 复 杂 度 的 规格 (LC) ， 最 后 需要 注意 的 一 点 
是 ， 配 置 一 帧 数据 时 ， 其 大 小 为 1024， 这 是 AAC 编 码 格式 要 求 的 帧 大 


小 。 


至 此 ， 输 入 和 输出 的 Description 就 配置 好 了 。 当 然 ， 还 需要 构造 
一 个 编码 右 类 的 撞 述 ， 用 于 提供 编码 器 的 类 型 以 及 编码 器 的 实现 方 
式 ， 因 为 是 编码 AAC， 所 以 其 所 使 用 的 编码 絮 类 型 是 : 
kAudioFormatMPEG4AAC， 编 码 的 实现 方式 是 使 用 兼容 性 更 好 的 软件 


编码 方式 (虽然 是 软件 编码 方式 ， 但 是 也 是 有 硬件 加 速 的 ) : 

kAppleSoftwareAudioCodecManufacturer。 通过 这 两 个 输入 可 构造 出 一 

J 它 将 告诉 OS 系统 开发 者 想 要 使 用 的 到 底 是 哪 一 
编码 器 。 


有 了 上 述 的 三 个 Description (一 个 是 输入 数据 的 描述 ， 一 个 是 输 
出 数据 的 描述 ， 还 有 一 个 是 编码 器 的 描述 ) ， 调 用 如 下 方法 就 可 以 构 
造 出 一 个 AudioConverterRef 实 例 了 : 


OSStatus status = AudioCconverterNewSpecific(&inABSD，&outABSD，1， 
codecDescription, & audioConverter); 


第 三 个 参数 1 是 指明 要 创建 编码 絮 的 个 数 ， 最 后 一 个 参数 束 是 我 们 
想 要 构造 的 转 码 妖 实 例 对 象 ， 返 回 值 是 OSStatus 类 型 的 变量 ， 如 果 返 
回 的 不 是 0， 则 表示 出 错 了 ， 如 果 返 回 值 是 0 或 者 是 iOS 定 义 的 一 个 和 常 
量 noErr 则 表示 成 功 了 。 


现在 可 以 对 该 转 码 实例 设置 比特 率 了 ， 代 码 如 下 所 示 : 


AudioConverterSetProperty(_audioConverter, kAudioConverterEncodeBitRate, 
sizeof(bitRate), &bitRate),; 


之 后 需要 获取 编码 之 后 输出 的 AAC 其 Packet size 的 最 大 值 是 多 
少 ， 因 为 需要 按照 该 值 来 分 配 编码 后 数据 的 存储 空间 ， 从 而 让 编码 右 
输出 到 该 存储 区 域 中 ， 代 码 如 下 : 


UINt32 size = sizeof(_aacBufferSize); 

AudioConverterGetProperty(_audioConverter, kAudioConverter 
PropertyMaximumOutputPacketSize, &size, & aacBufferSize); 

_aacBuffer = malloc(_aacBufferSize * sizeof(uint8_t)); 
memset(_aacBuffer, ©0, _aacBufferSize); 


至 此 初始 化 方法 就 结束 了 ， 这 里 面 除 了 分 配 出 编码 器 以 及 为 编码 
右 设 置 比 特 率 之 外 ， 还 需要 根据 获取 到 的 输出 AAC 的 Packet 大 小 分 配 
存储 AAC 的 Packet 的 存储 空间 。 


下 面 来 看 第 二 个 接口 ， 真 正 编码 函数 的 实现 。 首 先 要 利用 前 面 已 
初始 化 好 的 _aacBuffer 构 造 出 一 个 AudioBufferList 的 结构 体 ， 作 为 编码 


本 输 出 AAC 数 据 的 存储 容 右 ， 代 码 如 下 : 


AudioBufferList outAudioBufferList = {0}; 
outAudioBufferList.mNumberBuffers = 1; 
outAudioBufferList.mBuffers[0].mNumberChannels = _channels; 
outAudioBufferList.mBuffers[0].mDataByteSize = _aacBufferSize; 
outAudioBufferList.mBuffers[0].mData = _aacBuffer ， 


构造 出 该 结构 体 之 后 ， 就 可 以 调用 编码 亏 的 编码 (转换 ) 函数 
了 。 但 是 有 的 读 考 会 有 疑问 ， 我 们 还 没有 拿 到 PCM 数 据 ， 又 该 如 何 调 
用 编码 器 编码 呢 ? 也 吏 是 数据 源 从 哪里 来 呢 ? 其 实在 iOS 中 提供 的 API 
人 这 里 葡 是 一 个 非常 典型 
JJ 必用 : 


UInt32 iooutputDataPacketSize = 1; 

OSStatus status = AudioConverterFillComplexBuffer( 
_audioConverter, inInputDataProc, (__bridge void *)(self), 
&ioOutputDatapacketSize, &outAudioBufferList, NULL); 


再 来 总 体 解 释 一 下 该 函数 ， 其 中 第 一 个 参数 是 实例 化 好 的 编码 器 
(或 者 说 是 转换 器 ) ; 第 二 个 参数 孢 是 一 个 回调 函数 ， 即 当 编码 峰 
(或 者 说 是 转换 器 ) 需要 开发 者 填充 数据 的 时 候 ， 编 码 器 (或 者 转换 

句 ) 就 会 调用 这 个 回调 函数 来 获得 PCM 数 据 ， 接 下 来 的 参数 就 是 对 象 
本 身 ， 回 调 函 数 一 般 都 会 传 入 一 个 context， 以 便 调用 本 对 象 的 方法 ; 
接 下 来 的 参数 就 是 输出 的 AAC 的 Packet 的 大 小 ， 再 就 是 编码 之 后 的 
AAC 的 Packet 存 放 的 容器 ， 最 后 一 个 参数 是 输出 AAC 的 Packet 的 
Description， 一 般 填 充 为 NULL 。 


下 面 来 看 一 下 该 回调 函数 的 原型 以 及 在 回调 函数 中 如 何 填 充 PCM 
数据 ， 该 回调 函数 的 原型 如 下 : 


OSStatus inInputDataProc(AudioconverterRef inAudioConverter, UInt32 
*ioNumberDatapackets, AudioBufferList *ioData, 
AudioStreamPacketDescription **outDataPacketDescription， 
void *inUserData) 


下 面 来 看 一 下 该 回调 画 数 的 具体 参数 ， 第 一 个 参数 是 编码 器 (或 
者 说 转换 器 ) 的 实例 ， 第 二 个 参数 是 需要 填充 多 少 个 PCM 的 packet 
(或 者 说 是 frame) ， 第 三 个 参数 是 开发 者 实际 填充 PCM 数 据 的 容器 


第 四 个 参数 是 填充 输出 Packet 的 Description， 但 是 在 这 里 不 使 用 ， 最 后 

一 个 参数 就 是 上 下 文 ， 即 在 调用 编码 函数 〈 或 者 说 转换 函数 ) 的 时 候 

传 入 的 对 象 本 喘 。 像 大 多 数 的 回调 函数 一 样 ， 我 们 可 以 将 imnUserData 

| 然后 就 可 以 调用 该 对 象 的 方法 
， 代 人 码 如 下 : 


AudioToolboxEncoder *encoder = ( bridge AudioToolboxEncoder *)(inUserData); 
return [encoder fillAudioRawData:ioData IoNumberDataPackets : 
IOoNumberDataPackets]' 


在 这 个 静态 的 回调 函数 中 ， 通 过 上 下 文 对 象 的 强制 类 型 转换 ， 欢 
可 以 得 到 对 象 本 身 ， 进 而 可 以 调用 到 fl]AudioRawData 方 法 。 接 下 来 再 
介绍 一 下 该 方法 的 具体 实现 ， 首 先 根 据 需 要 填充 的 帧 的 数目 、 当 前 声 
道 数 以 及 表示 格式 计算 出 需要 填充 的 uint8_t 类 型 的 buffer 的 大 小 ， 计 算 
公 避 如 下 二 全 


int bufferLength = IoNumberDataPackets * channels * sizeof(short),; 


然后 根据 上 述 公 式 算 出 来 的 bufferLength 来 分 配 pcmBuffer， 接 下 
来 调用 delegate 里 面 的 fil-AudioData: bufferSize: 方法 来 填充 数据 ， 最 
后 将 客户 端 代码 填充 好 的 pcmBuffer 放 入 ioData 容 邵 中 并 返回 ， 这 样 就 
完成 了 为 编码 器 (或 者 说 是 转换 器 ) 提供 PCM 数 据 的 回调 函数 。 


编码 函数 (或 者 说 是 转换 函数 ) 执行 结束 之 后 ， 就 可 以 读 取 出 前 
面 拿 出 定义 好 的 out-AudioBufferList 结 构 体 ， 编 码 好 的 数据 就 存放 在 这 
里 。 从 该 结构 体 的 属性 mBuffers[0].mData 中 读 取 出 AAC 的 原始 
Packet， 添 加 上 ADTS 头 信息 ， 并 调用 delegate 的 方法 
outputAACPakcet: presentationTimeMills: error: ， 该 方法 约定 由 客户 
端 来 输出 编码 之 后 的 带 有 ADTS 头 信息 的 AAC 数 据 ， 最 终 如 采 输 入 数 
据 为 空 ， 则 代表 结束 ， 我 们 就 可 以 调用 delegate 的 方法 onCompletion， 
让 客户 端 对 目 己 的 资源 进行 关闭 以 及 销毁 的 操作 了 。 


最 后 来 看 下 销毁 编码 亏 的 接口 实现 ， 先 释放 已 分 配 的 填充 PCM 
数据 的 pcmBuffer， 然 后 释放 分 配 的 接受 编码 妖 输 出 的 aacBuffer， 最 后 
释放 编码 絮 ， 代 码 如 下 : 


if(_pcmBuffer) { 
free(_pcmBuffer ) ， 
_pcmBuffer = NULL; 


} 

if(_aacBuffer) { 
free(_aacBuffer ) ， 
_aacBuffer = NULL 


} 
AudioConverterDispose(_audioConverter); 
至 此 编码 类 的 实现 束 全 部 实现 完毕 了 ， 集 成 阶段 的 实现 具体 如 


首先 客户 问 代 码 需 要 实现 该 类 中 定义 的 FillDataDelegate 类 型 的 
Protocol， 并 且 需 要 重 写 其 中 的 fllAudioData 方 法 ， 以 便 为 该 编码 器 类 
提供 PCM 数 据 ， 此 外 ， 还 需要 重 写 outputAAC-Packet 方 法 来 输出 编码 
添加 上 ADTS 头 的 AAC 的 码 流 数据 ， 重 写 onCompletion 方 法 以 关闭 目 己 
的 读 写 文 件 等 操作 ; 然后 实例 化 编码 器 ， 开 局 一 个 线程 (使 用 GCD) 
最 终 在 编码 结束 之 后 或 者 在 dealloc 方 法 中 调用 结 
编码 的 方法 。 


本 节 的 代码 实例 是 代码 仓库 中 的 AudioToolboxEncoder 工 程 ， 输 入 
就 是 bundle 目 隶 下 面 的 vocal.pcm， 编 码 之 后 在 App 的 document 目 好 下 
面 ， 可 以 利用 Xcode 导出 App 的 container， 然 后 读 取 出 AAC 文 件 使 用 
ffplay 播 放 或 者 使 用 ffprobe 查 看 格式 摘 述 。 


6.4 视频 画面 的 编码 


本 下 将 讨论 视频 的 编码 ， 对 于 视频 编码 的 原理 与 发 展 历 史 ， 本 书 
的 第 1 章 中 已 经 有 过 人 简单 的 介绍 ， 本 和 讨论 的 主要 内 容 是 如 何以 软件 编 
码 和 硬件 编码 的 方式 在 两 个 平台 上 分 别 完成 H264 格 式 的 编码 工作 。 当 
然 软 件 编码 实际 使 用 的 库 是 libx264 库 ， 但 是 开发 是 基于 FFmpeg 的 API 
进行 的 ， 对 于 硬件 编码 ， 可 使 用 各 自 平 台 提供 的 硬件 编码 器 来 实现 。 
而 编码 的 输入 就 是 6.3 节 中 摄像 头 捕捉 的 纹理 图 像 〈“ 显 存 中 的 表示 ) ， 
输出 是 H264 的 Annexb 封 装 格 式 的 流 。 当 然 ， 如 果 读 者 愿意 自行 尝试 的 
话 ， 也 完全 可 以 使 用 前 面 第 5 章 中 解码 器 的 输出 作为 编码 器 的 输入 ， 其 
实 这 就 是 后 期 处 理 保存 的 过 程 本 书 会 在 后 续 的 章节 中 进行 单独 介 


6.4.1 libx264 编 码 H264 


在 iOS 平 台 上 ， 由 于 便 件 编码 右 的 兼容 性 比较 好 ， 所 以 基本 上 用 不 
到 libx264 这 些 软件 的 编码 器 ， 毕 竟 在 移动 平台 上 只 要 兼容 性 没有 问 
题 ， 肯 定 会 以 性 能 作为 第 一 考虑 因素 ， 所 以 本 市 的 实例 只 需要 运行 在 
Android 平 台 上 即 可 。 但 是 编码 部 分 的 代码 都 是 使 用 C++ 来 编写 的 ， 是 
跨 平 台 的 ， 因 此 如 果 在 iOS 平 台 上 有 需要 的 话 可 以 直接 使 用 编码 部 分 的 
代码 。 由 于 输入 是 一 张 约 理 ， 输 出 生 H264 的 裸 流 ， 因 此 可 将 实例 分 太 
以 下 几 个 部 分 来 讲解 。 


首先 ， 编 码 模块 的 输入 肯定 是 6.3 世 中 讲解 的 摄像 头 预览 控制 右 深 
染 到 屏幕 之 前 的 纹理 ID。 移 来 看 一 下 编码 慷 模 块 的 两 种 实现 ， 本 万 讨 
论 的 是 软件 编码 器 ，6.4.2 广 将 讨论 硬件 编码 器 ， 对 此 ， 经 典 的 设计 束 
是 抽象 出 一 个 接口 ， 然 后 提供 一 个 软件 编码 器 的 实现 和 一 个 人 硬件 编码 
右 的 实现 。 接 下 来 看 一 下 在 摄像 头 预览 的 控制 右 这 个 类 里 ， 如 何 与 编 
其 实 就 是 抽象 出 的 该 编码 右 模 块 的 接口 ， 首 先是 
初始 化 接口 : 


void init(const char* h264Path, int width, int height, int videoBitRate, float 
frameRate) 


该 接口 传 入 的 参数 分 别 是 编码 之 后 的 H264 文 件 的 存储 路 径 ， 编 码 
视频 的 宽 、 高 ， 编 码 H264 的 比特 率 ， 视 频 的 帧 率 等 。 该 接口 负责 将 这 
些 视频 编码 的 MetaData 信 息 存 储 到 全 局 杰 量 中 ， 并 且 执行 打开 文件 的 
操作 。 接 下 来 看 一 下 创建 编码 右 的 接口 : 


virtual int createEncoder(EGLCore* eglCore, int inputTexId) = 0; 


可 以 看 到 该 方法 是 一 个 纯 虚 的 方法 ， 代 表 由 具体 的 子 类 来 完成 操 
作 ， 由 于 编码 恬 模 块 的 输入 是 演 染 到 屏幕 上 之 前 的 纹理 ID ， 所 以 需要 
对 纹理 ID 进行 操作 ， 即 把 OpenGL ES 的 上 下 文 环境 的 封装 类 EGLCore 以 
及 要 演 染 的 纹理 ID 传 入 进来 ， 该 接口 负责 创建 编码 器 资源 以 及 转换 纹 
理 对 和 象 以 适 配 编码 器 ， 这 也 引出 了 编码 器 模块 入 口 的 接口 名 字 : 
VideoEncoderAdapter。 为 一 个 类 命名 其 实 束 是 根据 该 类 的 职员 而 确定 
的 ， 上 面 这 个 类 实际 上 束 古 将 输入 的 纹理 ID 做 一 个 转换 ， 使 得 转换 之 


后 的 数据 可 以 作为 具体 编码 正 的 输入 ， 所 以 这 也 是 该 接口 的 名 字 所 代 
表 的 意义 ， 而 本 蔬 要 完成 的 束 是 该 软件 编码 右 适 配 右 的 实现 ， 即 
SoftEncoderAdapter。6.4.2 六 将 会 完成 硬件 编码 强 适 配器 的 实现 ， 即 
HWEncoderAdapter。 该 函数 需要 构建 出 OpenGL ES 环境 ， 并 且 创 建 编 
码 希 ， 如 有 果 成 功 则 返回 0， 否 则 返回 负数 。 接 下 来 看 一 下 编码 接口 : 


Virtual void encode() = 0; 


同样 的 ， 这 也 是 一 个 纯 虚 的 方法 ， 由 了 于 类 目 己 来 完成 编码 操作 ， 
A 目 己 构造 的 OpenGL ES 泻 染 线程 来 完成 适 配 工 作 的 过 
下 面 来 看 下 一 个 接口 ， 即 销毁 编码 器 的 接口 : 


Virtual void destroyEncoder() = 0; 


这 也 是 一 个 纯 虚 的 方法 ， 由 子 类 目 己 来 完成 销毁 编码 此 以 及 销 绒 
OpenGL ES 的 泻 染 线程 ， 这 就 是 我 们 抽象 出 来 的 接口 的 三 个 方法 ， 通 
过 图 6-17 可 以 更 加 清晰 地 看 到 它们 之 间 的 调用 关系 。 


VideoEncoderAdapter 


MVRecording 
PreviewController 


1. 构造 编码 况 实 例 createEncoder 
2. 初始 化 编码 器 

3. 每 一 帧 都 做 编码 操作 encode 

4. 停止 风 码 


destroyEncoder 


HW Encoder SoftEncoder 
Adapter Adapter 


图 6-17 


本 节 的 目标 就 是 完成 图 6-17 中 软件 编码 器 适 配 右 的 实现 部 分 ， 即 
SoftEncoderAdapter 部 分 ， 首 先 从 全 局 来 看 一 下 软件 编码 器 的 整体 结 
构 ， 如 图 6-18 所 示 。 
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拷贝 和 内 存 操作 
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3-2: 销 毁 VideoFrameQueue 


3-3: 停 止 兵 纹 理 找 贝 线程 


图 6-18 


从 图 6-18 中 可 以 看 到 整个 软件 编码 右 模 块 的 整体 结构 ， 其 实 ， 纹 理 
找 贝 线程 是 一 个 生产 者 ， 它 生产 的 视频 帆 会 放 入 VideoFrameQueue 中 ; 
而 编码 线程 则 是 一 个 消费 者 ， 其 可 从 VideoFrameQueue 中 取出 视频 帧 ， 
再 进行 编码 ， 编 码 好 的 H264 数 据 将 输出 到 目标 文件 中 。 


在 createEncoder 方 法 的 实现 中 ， 即 图 6-18 中 左边 框图 的 1-1、1-2 以 
及 1-3 部 分 ， 分 别 创建 存储 视频 帧 的 队列 VideoFrameQueue、 编 码 线程 以 
及 纹理 拷贝 线程 。 这 三 个 对 象 的 职责 一 日 了 然 ， 因 此 不 作 长 述 ， 这 里 
主要 来 看 一 下 这 三 个 对 象 是 如 何 实现 的 。 首 先 来 看 Video-FrameQueue， 
这 是 一 个 我 们 目 己 实现 的 保证 线程 安全 的 队列 ， 实 际 上 就 是 一 个 链 
表 ， 链 表 中 每 个 Node 节 点 内 部 的 元 素 均 是 一 个 VideoFrame 的 结构 体 ， 
该 结构 体 中 的 元 素 具 体 如 下 : 


typedef struct VideoFrame t { 


unsigned char * buffer; // YUV429P 的 图 像 数 据 

int size; // 图 像 数据 的 大 小 

int timeMills; // 所 代表 的 时 间 截 

int duration; // 这 一 帧 图 像 所 代表 的 时 间 长 度 


} VideoFrame; 


VideoFrameQueue 对 象 提供 了 以 下 几 个 接口 : 第 一 个 是 init 方 法 ， 该 
方法 会 初始 化 锁 来 保证 线程 的 安全 ， 同 时 也 会 初始 化 头 指针 和 尾部 指 
针 为 空 ， 此 外 ， 还 将 初始 化 一 个 布尔 形变 量 ， 代 表 是 否 要 丢弃 所 有 
帧 ， 即 mAbortRequest; 第 二 个 就 是 put 方 法 ， 在 保证 线程 安全 ( 即 在 操 
作 指 针 前 后 上 锁 和 解锁 ) 的 前 提 下 ， 将 新 的 元 素 连接 到 该 链表 的 最 后 
面 ， 并 且 发 出 signal 指 令 ; 第 三 个 是 get 方 法 ， 在 保证 线程 安全 性 ( 即 在 
操作 指针 前 后 上 锁 和 解锁 ) 的 前 提 下 ， 取 出 头 部 指针 指向 的 元 素 ， 并 
且 将 指针 指 同 下 一 个 元 妹 ; 如 果 没 有 元 素 可 以 取出 的 话 ， 那 就 wait， 等 
接收 到 signal 指 令 之 后 再 去 取出 元 素 ，signal 指 令 有 可 能 是 put 函 数 或 者 
abort 函 数 被 调用 前 发 出 的 ; 第 四 个 是 abort 方 法 ， 即 我 们 要 放弃 队列 中 
的 所 有 元 素 了 ， 当 put 方 法 和 get 方 法 再 次 被 调用 时 束 会 被 包 略 ; 最 后 在 
ea 并 且 释 放 挥 ， 以 防止 内 
泄漏 。 


下面 再 来 看 编码 线程 ， 在 编码 线程 中 首先 需要 实例 化 编码 器 ， 然 
后 进入 一 个 循环 ， 不 断 从 VideoFrameQueue 里 面 取出 视频 帧 元 素 ， 调 用 
编码 器 进行 编码 ， 如 果 从 VideoFrameQueue 中 获取 元 素 的 返回 值 是 -1， 
则 跳出 循环 ， 最 后 销毁 编码 器 ， 代 码 如 下 : 


encoder = new VideoX264Encoder(); 
encoder->init(videowidth, videoHeight, videoBitRate, frameRate, h264File); 
LiveVideoFrame *videoFrame = NULL; 
while(true)f{ 
if (videoFramePool->getYUY2Packet(&videoFrame, true) < 0) { 


if(videoFrame){ 
// 调用 编码 器 编码 这 一 帧 的 数据 
encoder->encode(videoFrame ) ， 
delete videoFrame 
videoFrame = NULL; 


} 


} 

if(NULL != encoder){ 
encoder ->destroy(); 
delete encoder; 
encoder = NULL; 


} 


现在 分 析 纹 理 找 贝 线程 ， 由 于 将 纹理 从 显存 中 拷贝 到 内 存 中 需要 
耗费 的 时 间 比 较 长 ， 为 了 尽量 不 阻塞 预览 界面 的 演 染 线程 ， 因 此 建立 
了 该 纹理 拷贝 线程 。 该 线程 首先 需要 初始 化 OpenGL ES 的 上 下 文 环 
境 ， 然 后 绑 定 到 新 建立 的 这 个 纹理 拷贝 线程 之 上 。 该 纹理 拷贝 线程 找 
贝 的 纹理 ID 是 在 客户 端 代码 调用 createEncoder 方 法 的 时 候 传 递 进 来 的 ， 


而 该 纹理 是 在 预 筑 界面 泻 染 线程 的 上 下 文中 创建 的 ， 那 么 为 什么 在 新 
建立 的 泻 染 线 程 中 可 以 访问 到 呢 ? 这 也 是 我 们 要 将 EGLCore 从 预览 控 
制 类 中 传递 过 来 的 原因 ， 因 为 我 们 要 使 用 OpenGL 中 共享 上 下 文 的 概 
念 ， 即 在 创建 OpenGL ES 上 下 文 的 时 候 ， 使 用 已 经 存在 的 EGLContext 
而 不 是 EGL_NO_CONTEXT， 这 样 ， 新 创建 的 这 个 上 下 文 就 可 以 和 已 
经 存在 的 EGLContext 共 享 所 有 的 OpenGL 对 象 了 ， 包 括 纹理 对 象 、 帧 缓 
存 对 象 ， 等 等 。 而 这 里 已 经 将 泻 染 线程 中 封装 的 EGLCore 这 个 指针 传 
递 过 来 了 ， 也 就 是 可 以 获得 预览 界面 泻 染 线程 的 OpenGL ES 的 上 下 文 
了 。 此 外 ， 创 建 OpenGL ES 上 下 文 的 时 候 会 将 传递 过 来 的 上 下 文 当 作 
第 三 个 参数 传递 进去 ， 这 样 我 们 在 当前 纹理 拷贝 线程 中 就 可 以 访问 预 
览 界面 浑 染 线程 所 创建 的 纹理 对 象 了 。 代 人 码 如 下 : 


eglCore = new EGLCore( )， 

eglCore->init(previewGLContext); 

copyTexSurface = eglCore->createoffscreenSurface(videowidth, videoHeight); 
eglCore->makeCurrent(copyTexSurface); 


是 时 候 创 建 一 个 输出 纹理 ID 了， 我 们 拷贝 的 目标 就 是 该 输出 纹理 
对 象 ， 此 外 ， 还 需要 创建 一 个 帧 缓存 对 象 ， 帧 缓存 对 象 是 任何 一 个 
OpenGL Program 演 染 的 目标 。 当 然 像 之 前 直接 泻 染 到 屏幕 上 的 都 会 
一 个 默认 的 帧 缓存 对 象 ， 但 目前 的 场景 并 不 古 向 屏幕 上 绘制 ， 而 是 进 
行 纹理 拷贝 ， 所 以 我 们 需要 自行 创建 一 个 帧 缓存 对 象 。 创 建 纹 理 ID 与 
帧 缓存 对 象 的 代码 如 下 : 


glGenFramebuffers(1, &mFBO); 
glGenTextures(1, &outputTexId); 


在 进行 真正 的 拷贝 之 前 ， 需 要 显 式 地 绑 定 该 帧 的 缓存 对 象 ， 然 后 
使 用 一 个 通用 的 renderer (使 用 OpenGL 的 Program 将 输入 纹理 ID 绘制 到 
我 们 绑 定 的 帧 缓存 对 象 上 ) ， 这 个 renderer 是 在 播放 器 项 目 中 封装 的 通 
用 的 泻 染 代码 ，renderer 的 泻 染 目标 就 是 绑 定 的 这 个 帧 的 缓存 对 象 ， 又 
因为 我 们 把 输出 纹理 ID 绑 定 到 了 这 个 帧 缓存 对 象 之 上 ， 所 以 就 相当 于 
是 将 输入 纹理 的 内 容 绘制 到 了 输出 纹理 上 面 去 了 。 完 成 拷贝 之 后 需要 
再 解 绑 定 这 个 帧 缓存 对 象 ， 代 码 如 下 : 


glViewport(0, ©0, videowidth, videoHeight); 
glBindFramebuffer(GL_FRAMEBUFFER, mFBO); 
checkGlError("glBindFramebuffer FBO"),; 
long startTimeMills = getCurrentTime(); 


renderer->renderToTexture(texId, outputTexId); 
glBindFramebuffer(GL_FRAMEBUFFER, 0); 


在 找 贝 到 目标 纹理 之 后 ， 束 可 以 让 预 宽 线 程 继续 进行 自己 的 工作 
了 ， 但 是 在 拷贝 成 功 之 前 ， 需 要 阻塞 预 砚 线程， 具体 实现 就 是 在 调用 
encode 方 法 的 时 候 使 用 条 件 锁 wait， 待 纹理 拷贝 线程 拷贝 成 功 了 之 后 ， 
发 送 一 个 signal 指 令 过 来 ，encode 方 法 接受 到 signal 指 令 之 后 束 可 以 结束 
了 ， 以 让 预 贞 线程 继续 运行 。 这 样 焉 可 以 达到 最 短 时 间 的 阻塞 预 虎 线 
程 ， 以 防止 发 生 预 视界 面 的 FPS 降 低 ， 然 后 我 们 需要 做 的 就 是 ， 将 该 输 
出 纹理 ID 的 内 容 找 贝 到 内 存 中 ， 这 束 涉 及 显存 和 内 存 的 数据 传递 了 。 
在 做 视频 处 理 以 及 编 解 码 的 时 候 ， 需 要 遵从 一 个 原则 : 尽量 少 地 进行 
显存 和 内 存 的 交换 。 但 是 在 不 得 已 的 情况 下 ， 必 须要 将 显存 中 的 数据 
传递 到 内 存 中 ， 因 为 我 们 是 使 用 X264 进 行 编码 操作 的 ， 而 X264 的 输入 
必须 是 内 存 中 的 数据 。OpenGL 中 提供 了 显存 到 内 存 的 数据 转换 API: 
glReadPixels， 它 一 共有 7 个 参数 ， 第 一 个 和 第 二 个 参数 表示 了 甜 形 左下 
角 的 横 、 纵 坐标 ， 坐 标 系 就 是 OpenGL 的 纹理 坐标 系 ; 第 三 个 和 第 四 个 
参数 表示 了 矩形 的 宽度 和 高 度 ， 第 五 个 参数 是 读 取 的 内 容 格 式 ， 一 般 
是 读 取 RGBA 格 式 的 数据 ， 第 六 个 参数 是 读 取 的 内 容 在 内 存 中 的 表示 格 
式 ; 第 七 个 参数 孢 是 我 们 要 存储 到 的 内 存 区 域 的 指针 。 该 函数 默认 会 
读 取 出 RGBA 格 式 的 数据 ， 并 且 会 非常 耗 时 ， 读 取 的 内 容 区 域 越 大 ， 所 
消耗 的 时 间 也 会 越 多 ， 所 以 对 于 分 辨 率 大 的 纹理 ID， 读 取 一 帧 数据 所 
耗费 的 时 间 就 比较 多 了 “。 因 此 需要 把 显存 到 内 存 中 的 数据 交换 〈 耗 
时 、 人 性 能 低 ) 和 拷贝 纹理 (速度 快 ) 分 为 两 个 阶段 ， 使 得 最 终 效 果 不 
会 咀 塞 预 多 界面 的 泻 染 线程 。 而 对 于 显存 到 内 存 的 数据 转换 的 优化 ， 
其 主要 的 思路 束 古 减少 数据 量 的 读 取 ， 那 么 如 何 减少 数据 量 的 读 取 
呢 ? 可 以 把 一 张 RGBA 格 式 的 纹理 ID 先 转换 为 YUY2 的 格式 ，YUY2 的 
格式 将 为 每 个 像素 保留 Y 分 量 ， 而 UV 分 量 在 水 平方 向 上 将 每 两 个 像素 
采样 一 次 ， 即 一 个 像素 RGBA 格 式 使 用 4 个 字 届 来 表示 ， 而 YUY2 格 式 
使 用 2 个 字 市 来 表示 ， 这 样 从 显存 到 内 存 转 换 数 据 的 时 候 数 据 量 束 减 小 
了 一 半 ， 而 读 取 所 耗费 的 时 间 也 几乎 减少 到 了 原始 时 间 的 一 半 ， 但 是 
我 们 需要 做 的 额外 工作 是 ， 在 显存 中 通过 一 个 OpenGL Program 将 
RGBA 格 式 转换 为 YUY2 格 式 ， 然 后 再 进行 读 取 ， 具 体 请 查看 代码 示例 
中 的 host_gpu_copier.cpp 实 现 文件 ， 最 后 将 YUY2 格 式 的 数据 交 给 编码 
钥 进 行 编码 。 


接 下 来 介绍 VideoX264Encoder 的 实现 ， 该 类 主要 完成 的 任务 是 将 
350 然后 写 到 H264 的 文件 


首先， 使 用 libx264 时 ， 并 不 是 直接 使 用 它 的 API， 而 是 基于 
FFmpeg 的 API 来 开发 的 ， 当 然 ， 在 此 之 前 要 将 libx264 交 叉 编译 到 
FFmpeg 中 去 ， 这 点 在 前 面 已 经 编译 进去 了 。 现 在 将 FFmpeg 的 头 文 件 以 
及 静态 库 文 件 拉 入 到 工程 中 的 jni 目 了 永 下 ， 并 且 在 Android.mk 中 进行 合 
适 的 配置 ， 然 后 新 建 一 个 C++ 文件 video_x264_encoder， 下 面 来 看 一 下 
该 文件 对 外 提供 的 接口 。 


初始 化 接口 : 


int init(int width, int height, int videoBitRate, float frameRate， 
FILE* h264File) 


上 述 接口 需要 传 入 要 编码 视频 的 宽 、 高 以 及 视频 的 码 率 和 帧 率 ， 
最 后 一 个 参数 是 编码 之 后 要 写 入 的 H264 文 件 ， 该 接口 负责 进行 初始 化 
编码 器 上 下 文 以 及 编码 之 前 的 AVFrame 结 构 体 ， 如 果 成 功 则 返回 9， 否 
则 返回 负数 。 接 下 来 看 一 下 第 二 个 接口 ， 实 际 的 编码 接口 : 


int encode(VideoFrame *videoFrame); 


该 接口 需要 传 入 的 参数 是 一 个 VideoFrame 的 结构 体 ， 该 结构 体 中 
实际 上 包含 了 这 一 帧 图 片 的 YUY2 数 据 以 及 时 间 人 信息， 之 前 也 提 到 过 ， 
为 了 性 能 考虑 ， 从 显卡 中 读 出 来 的 格式 是 YUY2 的 格式 ， 所 以 这 里 的 输 
入 格式 是 YUY2 的 视频 帧 表示 格式 ， 而 libx264 输 入 的 格式 一 般 都 是 
YUV420P 的 格式 ， 所 以 要 在 将 数据 发 送 到 libx264 之 前 将 其 转换 成 为 
YUV420P 格 式 的 数据 ， 然 后 把 这 一 帧 图 像 编 码 成 为 H264 的 数据 ， 并 写 
入 文件 。 如 果 编 码 失 败 则 返回 负数 ， 如 果 编 码 成 功 则 返回 0。 从 YUY2 
到 YUV420P 格 式 的 具体 转换 过 程 已 做 优化 ， 在 armv7 平 台 上 利用 Neon 
指令 集 来 做 加 速 ， 在 X86 平台 使 用 SSE 指 令 集 来 做 加 速 ， 这 些 加 速 操 作 
其 实 都 是 SIMD 指 令 集 的 应 用 ， 了 吏 是 单 指 令 多 数据 的 操作 ， 由 于 篇 幅 关 
系 具体 代码 部 分 请 读者 参考 实例 代码 。 


接 下 来 再 看 最 后 一 个 销毁 接口 : 


void destroy( ) ， 


该 接口 负责 销毁 编码 紫 的 上 下 文 以 及 销 蝶 分 配 的 AVFrame 等 资源 。 


本 贡 的 代码 示例 是 代码 仓库 中 的 CameraPreviewRecorder 的 Android 
工程 ， 读 者 可 以 更 改 CameraPreviewActivity 中 的 第 80 行 ， 调 整 为 软件 编 
码 ， 并 且 给 出 自己 的 路 径 ， 进 入 预览 界面 之 后 点 击 编 码 按 钮 开始 编 
码 ， 当 点 击 停 止 按 钮 之 后 ， 编 码 结束 ， 然 后 可 以 利用 adb pull 命 令 将 编 
中 之 后 的 H264 文 件 导 出 到 电脑 上 ， 最 后 再 利用 ffplay 进 行 播放 以 观看 将 


6.4.2 ” Android 平台 的 硬件 编码 器 MediaCodec 


在 Android 4.3 系 统 之 后 ， 用 MediaCodec 编 码 视频 成 为 了 主流 的 使 
用 场景 ， 尽 管 Android 的 碎片 化 比较 严重 ， 会 导致 一 些 兼 容 性 问题 ， 但 
是 硬件 编码 器 的 性 能 以 及 速度 是 非常 可 观 的 ， 并 且 在 4.3 系 统 之 后 可 以 
通过 Surface 来 配置 编码 器 的 输入 ， 大 大 降低 了 显存 到 内 存 的 交换 过 程 
所 使 用 的 上 时间， 从 而 使 得 整个 应 用 的 体验 得 到 大 大 提升 。 由 于 输入 和 
ee 


6.4.1 方 中 已 经 介绍 了 预览 控制 絮 类 如 何 调用 编码 右 模 块 进行 编 
码 ， 并 且 也 已 经 实现 了 软件 编码 絮 的 子 类 ， 本 节 要 完成 的 目标 束 古 实 
现 硬 件 编码 器 子 类 的 编写 。 新 建 的 hw_encoder_adapter 类 继承 自 
Video_encoder_adapter 类 ， 然 后 实现 所 有 的 虚 范 数 ， 包 括 创建 编码 器 的 
createEncoder 方 法 ， 实 际 编 但 的 encode 方 法 以 及 销毁 编码 左 的 
destroyEncoder 方 法 。MediaCodec 的 具体 运转 流程 如 图 6-16 所 示 。 因 为 
MediaCodec 是 Android 提 供 的 Java 层 的 API， 因 此 需要 在 C++ 层 调用 Java 
的 代码 ， 所 以 需要 在 该 类 的 构造 方法 中 将 JavaVM 以 及 jObject 传 递 进 


首先 来 看 一 下 创建 编码 器 的 方法 实现 ，6.4.1 节 中 libx264 编 码 器 是 
以 内 存 中 的 数据 作为 输入 的 ， 所 以 我 们 需要 进行 显存 到 内 存 的 数据 交 
换 ， 而 本 节 使 用 的 MediaCodec 是 允许 直接 以 显存 中 的 纹理 对 象 作为 输 
入 的 ， 这 就 在 提供 数据 的 速度 层面 有 了 很 高 的 保证 ， 同 时 也 减少 了 显 
存 到 内 存 的 数据 交换 ， 这 一 点 也 是 十 分 关键 的 。 


调用 Java 层 对 象 封装 的 创建 编码 器 的 方法 ， 把 视频 的 宽 、 高 、 比 特 
率 、 帧 率 等 传递 上 去 ， 然 后 在 Java 层 利用 这 些 参数 创建 编码 类 型 
为 “video/avc” 的 MediaCodec 实 例 ; 然后 调用 该 实例 对 象 的 configure 方 法 
配置 编码 器 ， 当 编码 器 配置 成 功 之 后 ， 再 调用 实例 对 象 的 
createInputSurface 方 法 创建 该 MediaCodec 的 输入 Surface; 然后 调用 实例 
对 和 象 的 start 方 法 来 开启 该 编码 器 。 接 下 来 我 们 将 Java 层 通过 MediaCodec 
创建 的 Surface 对 象 传递 给 Native 层 ， 在 Native 层 构造 一 个 
ANativewindow， 然 后 与 预览 控制 器 传递 过 来 的 EGLCore 共 同 创 建 
EGLSurface， 最 后 再 创建 一 个 renderer， 即 我 们 封装 的 一 个 OpenGL 
Program， 目 的 是 利用 这 个 renderer 将 输入 纹理 ID 演 染 到 目标 Surface 上 


去 。 注 意 该 Surface 是 Java 层 MediaCodec 的 输入 Surface， 而 不 是 预览 控 
制 类 中 的 Surface (预览 控制 器 的 Surface 是 Java 层 的 Surface-View 的 
Surface) 。 由 于 上 述 过 程 比较 复杂 ， 其 中 涉及 Java 层 和 Native 层 的 交 
互 ， 又 涉及 MediaCodec 的 使 用 ， 所 以 笔者 画 了 一 个 时 序 图 以 方便 读者 
理解 ， 如 图 6-19 所 示 。 紧 接着 创建 一 个 jbyteArray 类 型 的 buffer， 用 于 在 
MediaCodec 中 拉 取 编码 之 后 的 H264 数 据 。 为 了 不 影响 预 视线 程 的 刷新 
频率 ， 这 里 把 从 MediaCodec 中 拉 取 数据 的 操作 放 到 了 一 个 新 的 线程 

中 ， 所 以 这 里 需要 创建 出 一 个 线程 来 单独 进行 拉 取 编码 器 中 编码 数据 
的 控 作 。 男 外 由 于 MediaCodec 编 码 絮 编码 H264 数 据 的 时 候 ， 会 在 前 几 
帆 中 返回 SPS 和 PPS 人 信息， 因此 需要 将 SPS 和 PPS 作 为 全 局 变量 存储 下 
来 ， 放 到 每 一 个 关键 帧 的 前 面 ， 从 而 组 成 H264 文 件 。 关 于 SPS 和 PPS 的 
具体 概念 ， 以 及 如 何 判 断 H264 这 一 帧 的 NALU Type， 前 面 的 章节 中 已 
经 有 过 介绍 ， 这 里 不 再 殉 述 。 


Java 层 Native 层 


MediaCodecEncoder MVRecordingPreviewController HWEncoderAdapter 
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1 
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1.3:createEGLDisplay() 


一 


图 6-19 

下 面 再 来 看 一 下 编码 方法 的 实现 ， 把 第 一 次 编码 取得 的 当前 时 间 
戳记 录 为 开始 编码 的 时 间 惟 startTime， 之 后 再 调用 编码 操作 的 时 候 ， 取 
出 当前 时 间 减 去 startTime， 算 出 编码 时 长 ， 然 后 根据 帧 率 和 编码 时 长 算 
出 我 们 期 待 的 编码 数目 expectedFrameCnt， 并 且 在 每 编码 一 帧 的 时 候 惑 
为 全 局 变量 encodedFrameCnt 加 1。 通过 比较 这 两 者 的 关系 ， 来 控制 是 否 
将 这 一 帧 视频 帧 发 送 给 编码 器 ， 并 且 发 送 给 编码 规 的 这 一 帧 视频 帧 的 
时 间 惟 就 是 上 面 计 算 的 时 长 。 如 何 发 送 给 编码 右 呢 ? 首先 调用 库 EGL 
的 makeCurrent 方 法 ， 将 encoderSurface 作 为 演 染 目标 ， 接 下 来 调用 
renderer 将 输入 的 纹理 ID 泻 染 到 Surface 上 去 ， 然 后 为 编码 需 设 置 编码 的 


时 间 ， 最 后 向 拉 取 编码 数据 的 线程 发 送 一 个 指令 ， 让 其 到 MediaCodec 
中 拉 取 H264 的 数据 ， 并 调用 库 EGL 的 swapBuffer 演 染 数 据 。 代 码 如 下 : 


If (startTime == -1) 
StartTime = getCurrentTime(); 
Int64 t curTime = getCurrentTime() - startTime; 
int expectedFrameCount = (int)(curTime / 1000.0f * frameRate + 0.5f)， 
if (expectedFrameCount < encodedFrameCount) { 
// need drop frames 
return; 


encodedFrameCount++; 

if(EGL_NO_SURFACE != encoderSurface){ 
eglCore->makeCurrent(encoderSurface); 
renderer->renderToView( texId, videowidth, videoHeight); 
eglCore->setPresentationTime(encoderSurface, 

((khronos_stime_nanoseconds_t) curTime) * 1000000 ) ; 

handler->postMessage(new Message(FRAME AVAILIBLE)); 
eglCore->swapBuffers(encoderSurface) 


那么 ， 拉 取 MediaCodec 中 H264 数 据 的 这 个 线程 是 如 何 工 作 的 呢 ? 
首先 传递 到 Java 层 的 参数 束 是 上 述 第 一 步 中 创建 的 jbyteArray 的 buffer， 
在 Java 层 会 调用 MediaCodec 的 dequeue-OutputBuffer 方 法 ， 该 方法 的 返 
回 值 包含 以 下 几 种 状态 。 


INFO_TRY_ AGAIN_LATER， 代 表 获 取 数 据 超时 ， 稍 后 再 试 。 


.INFO_OUTPUT_FORMAT_CHANGED， 输 出 格式 发 生变 化 ， 需 
要 重新 获取 新 的 输出 格式 。 


.INFO_OUTPUT_BUFFERS_CHANGED,， 输 出 的 缓冲 区 发 生变 
化 ， 需 要 重新 获取 新 的 缓冲 区 。 


知 返 回 值 不 是 上 述 的 几 个 状态 ， 并 且 又 大 于 0 的 话 ， 我 们 就 可 以 取 
出 对 应 的 编码 数据 了 ， 然 后 将 buffer 中 的 数据 复制 出 来 ， 并 调用 
MediaCodec 的 release 方 法 来 将 该 buffer 放 回 到 组 神 队 列 中 。 之 后 在 
C++ 层 就 可 以 拿 到 该 数据 了 ， 我 们 会 用 该 buffer 数 据 中 index 为 4 的 数据 
与 0X1F 做 “ 相 与 的 操作 来 判断 NALU 类 型 ， 如 果 是 SPS 和 PPS， 就 存储 
到 全 局 变量 中 ， 因 为 要 在 每 一 个 关键 帧 前 面 写 入 SPS 和 PPS。 代 码 如 
下 : 


int nalu_type = (outputData[4] & Oxi1F); 
if (H264_ NALU_TYPE_ SEQUENCE_ PARAMETER_SET == nalu_ type) { 


spsppsBufferSize = size,; 
spsppsBuffer = new byte[spsppsBufferSize]; 
memcpy(spsppsBuffer, outputData, spsppsBufferSize),; 
} else if(NULL != spsppsBuffer){ 
if(H264_NALU_TYPE_IDR_PICTURE == nalu_type) 
fwrite(spsppsBuffer, 1, spsppsBufferSize, h264File); 


} 
fwrite(outputData, 1, size, h264rFile),; 
} 


最 后 再 来 看 一 下 销毁 编码 器 方法 的 实现 ， 首 先 要 停止 拉 取 编码 器 
数据 的 线程 ， 然 后 调用 Java 层 的 方法 关闭 MediaCodec， 并 释放 相关 的 
编码 器 资源 ，Java 层 会 调用 MediaCodec 的 stop 与 release 方 法 ， 最 后 ， 再 
释放 分 配 的 jbyteArray 类 型 的 buffer， 同 时 释放 全 局 的 SPS 和 PPS 的 
buffer， 并 且 关 闭 文 件 。 


本 厄 的 代码 示例 是 代码 仓库 中 的 CameraPreviewRecorder 的 Android 
工程 ， 读 者 可 以 更 改 CameraPreviewActivity 中 的 第 80 行 ， 调 整 为 硬件 编 
码 ， 并 且 可 以 输入 上 自己 的 路 径 ， 进 入 预 虎 界面 之 后 点 击 编码 按钮 开始 
编码 ， 点 击 停止 按钮 之 后 ， 编 码 结束 ， 然 后 可 以 利用 adb pull 命 令 将 编 
之 后 的 H264 文 件 导出 到 电脑 上 ， 最 后 利用 ffplay 进 行 播放 以 观看 效 


6.4.3 iOS 平台 的 人 硬件 编码 楷 


6.4.1 节 中 完成 了 利用 软件 编码 器 libx264 编 码 H264 数 据 的 实例 ， 但 
其 是 基于 Android 平 台 的 ， 基 于 ioOSs 平 台 的 软件 编码 器 这 里 就 不 做 实现 
了 ， 如 果 读 者 有 兴趣 ， 可 以 直接 利用 6.4.1 克 编码 器 的 封装 类 ， 做 一 下 
iOS 平 台 上 的 输入 适 配 就 可 以 了 ， 因 为 在 iOS 平 台 上 硬件 编码 絮 的 兼容 
性 比较 好 ， 所 以 对 于 H264 编 码 格 式 一 般 不 需要 使 用 软件 编码 器 。 


在 iOS 8.0 以 后 ， 系 统 提供 了 VideoToolbox 编 码 API， 该 API 可 以 充 
分 使 用 硬件 来 做 编码 工作 以 提升 性 能 和 编码 速度 。 本 厄 就 来 讲解 一 下 
如 何 将 一 系列 连续 的 纹理 ， 利 用 VideoToolbox 编 码 成 一 段 H264 的 数 
据 。 首 先 来 介绍 VideoToolbox 如 何 将 一 帧 视频 帧 数据 编码 为 H264 的 压 
缩 数 据 ， 并 把 它 封装 到 H264HWEncoderImpl 类 中 ， 然 后 再 将 封装 好 的 
这 个 类 集成 进 6.2.2 太 的 预 宽 系统 中 ， 集 成 进去 之 后 ， 对 于 原来 仅仅 是 
预览 的 项 目 ， 也 可 以 将 其 保存 到 一 个 H264 文 件 中 了 。 


1. 使 用 VideoToolbox 构 造 目 己 的 编码 需 


使 用 VideoToolbox 可 以 为 系统 带 来 以 下 几 个 优点 ， 提 高 编码 性 能 
〈 使 得 CPU 的 使 用 率 大 大 降低 ) ， 增 加 编码 效率 〈 使 得 编码 一 帧 的 时 
间 缩 短 ) ， 延 长 电量 使 用 ( 耗 电量 大 大 降低 ) ， 而 VideoToolbox 是 iOS 
8.0 以 后 才 公 开 的 API， 既 可 以 做 编码 又 可 以 做 解码 工作 。 本 下 主要 介绍 
编码 的 工作 流程 ， 后 续 的 章节 也 会 对 使 用 VideoToolbox 完 成 解码 场景 内 
容 进 行 讲解 。 


首先 ， 来 看 一 下 使 用 VideoToolbox 进 行 编 解 码 的 输入 输出 分 别 是 什 
么 ， 只 有 明确 了 这 一 点 ， 才 可 以 知道 如 何 为 VideoToolbox 编 码 需 提供 输 
入 数据 ， 并 且 知 道 如 何 从 VideoToolbox 中 获取 编码 之 后 的 数据 。 
VideoToolbox 的 编码 原理 如 图 6-20 所 示 。 
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图 6-20 


如 图 6-20 所 示 ， 左 边 的 三 帧 视频 帧 是 发 送 给 编码 器 之 前 的 数据 ， 开 
发 者 必须 将 原始 图 像 数据 封装 为 CVPixelBuffer 的 数据 结构 ， 该 数据 结 
构 是 使 用 VideoToolbox 编 解码 的 核心 ， 我 们 必须 要 理解 清楚 ，Apple 
Developer 官 网 上 针对 CVPixelBuffer 给 出 的 解释 是 其 是 主 内 存 中 存储 所 
有 像素 点 数据 的 一 个 对 象 ， 那 么 什么 是 主 内 存 ? 笔者 做 过 实验 之 后 理 
解 为 主 内 存 其 实 并 不 是 我 们 平时 所 操作 的 内 存 ， 但 是 两 者 的 概念 是 可 
以 关联 起 来 的 ， 所 以 笔者 将 主 内 存 理解 为 这 块 存储 区 域 存在 于 缓存 之 
中 ， 我 们 在 访问 这 块 区 域 之 前 必须 先 锁定 这 块 区 域 : 


CVPixelBufferLockBaseAddress(pixel buffer, 0); 


然后 才 可 以 访问 这 块 内 存 区 域 : 


void* data = CVPixelBufferGetBaseAddress(pixel buffer) 


操作 data 变 量 可 以 向 该 内 存 区 域 填充 内 容 或 者 从 中 读 取 内 容 ， 最 终 
使 用 完毕 之 后 ， 要 解锁 该 区 域 ， 以 确保 后 续 操 作 可 以 正音 进行 : 


CVPixelBufferRelease(pixel buffer); 


从 它 的 使 用 方式 来 看 ， 该 区 域 肯 定 不 是 普通 的 内 存 访 问 ， 人 否则 不 
会 在 访问 内 存 区 域 之 前 和 之 后 加 上 锁定 、 解 锁定 等 操作 ， 前 面 的 章节 
中 也 说 过 ， 做 视频 开发 有 一 个 原则 : 尽量 少 地 进行 显存 和 内 存 的 交 
换 。 所 以 在 iOS 的 开发 中 也 要 尽量 少 地 访问 它 的 内 存 区域 ， 我 们 应 该 使 


用 iOS 平 台 提供 的 对 应 的 API 来 完成 相应 的 操作 。 其 实 ， 可 以 回顾 一 下 
6.2.2 世 中 所 讲 的 Camera 回 调 ， 它 提供 给 我 们 的 数据 其 实 束 是 
CVPixelBuffer， 只 不 过 当时 使 用 的 引用 类 型 是 CVImageBufferRef， 但 
古 可 以 在 iOS 头 文件 定义 中 找到 它 ， 其 实 就 是 CVPixelBuffer 的 为 一 个 定 
义 。 大 家 可 以 回 过 头 来 看 一 下 Camera 的 回调 中 是 如 何 处 理 的 ， 其 核心 
就 是 如 何 将 CVPixelBuffer 中 的 内 容 构 造成 纹理 对 象 ， 以 供 OpenGL ES 
使 用 ， 而 不 是 手动 获取 CVPixelBuffer 的 内 存 地 址 ， 然 后 利用 OpenGL 
ES 提供 的 glTexImage2D 方 法 来 将 内 存 中 的 数据 上 传 到 显存 ， 以 构建 纹 
理 对 象 ， 再 将 其 发 送 给 OpenGL ES 使 用 。 而 iOS 的 CoreVideo 这 个 
framework 提 供 的 方法 
CVOpenGLESTextureCacheCreateTextureFromImage 束 是 专 | ] 用 来 将 纹 
理 对 象 关联 到 CVPixelBuffer 表 示 视 频 帧 的 方法 。 


下 面 来 看 这 个 编码 器 输出 的 对 象 ， 可 以 看 到 图 6-21 表 示 的 是 一 个 
CMSampleBuffer 的 对 象 ， 如 果 大 家 还 有 印象 的 话 ，6.2.2 节 中 讲解 的 
Camera 回 调 给 我 们 的 视频 帧 也 是 CMSample-Buffer 的 对 象 ， 但 是 它们 所 
包含 的 内 容 完 全 不 一 样 ，Camera 预 览 返 回 的 CMSampleBuffer 中 存储 的 
数据 是 一 个 CYVPixelBuffer， 而 经 过 VideoToolbox 编 码 输 出 的 
CMSampleBuffer 中 存储 的 数据 是 一 个 CMBlockBuffer 的 3 引用， 如 图 6-21 
所 示 。 
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图 6-21 


图 6-21 展 示 了 CMSampleBuffer 的 构成 方式 ， 左 边 代 表 了 压缩 格式 
(编码 器 输出 的 数据 ) 的 构成 ， 右 边 代 表 了 非 压缩 格式 (摄像 头 采集 
到 的 数据 或 者 解码 器 解码 出 来 的 数据 ) 的 构成 。 而 CMBlockBuffer 就 是 

编码 之 后 数据 存放 的 对 象 ， 我 们 可 以 调用 CMBlockBufferGet- 
DataPointer 方 法 来 获取 内 存 中 的 指针 ， 然 后 使 用 内 存 中 对 应 的 数据 去 做 
自己 的 处 理 ( 写 文件 或 者 发 送 到 网 络 ) 。 


既然 弄 清 楚 了 编码 器 的 输入 和 输出 ， 下 面 就 来 看 一 下 如 何 构建 编 
码 器 。 还 记得 之 前 一 直 说 的 一 句 天 于 iOS 多 媒体 API 的 话 吗 ? 那 束 是 使 
用 任何 硬件 设备 时 都 要 使 用 对 应 的 Session， 使 用 麦克 风 以 及 Speaker 的 
时 候 使 用 的 是 AudioSession， 使 用 Camera 的 时 候 使 用 的 是 
AVCaptureSession， 而 这 里 使 用 的 会 话 就 是 VTCompressionSession， 这 
个 会 话 束 代表 要 使 用 编码 颖 ， 等 后 续 讲 到 硬件 解码 场景 时 将 要 使 用 的 
会 话 束 是 VITDecompressionSessionRef。 那 么 下 面 就 来 讲解 如 何 定 制 一 
个 我 们 需要 的 编码 器 的 会 话 。 


首先 ， 调 用 VTCompressionSessionCreate 方 法 将 要 编码 的 视频 的 
宽 、 高 、 编 码 器 类 型 (kCMVideoCodecType_H264) 、 回 调 函 数 以 及 回 
调 画 数 上 下 文 传递 进去 ， 然 后 构造 出 一 个 编码 嚣 会话， 该 玉 数 的 返回 
值 是 一 个 OSStatus， 如 果 构 造成 功 则 返回 的 是 0， 如 果 不 成 功 则 要 给 出 
提示 ， 用 于 通知 客户 端 代 码 初始 化 编码 器 会 话 失 败 。 构 造成 功 之 后 要 
为 该 会 话 设置 参数 ， 具 体 代码 如 下 : 


VTSessionSetProperty(EncodingSession, kVTCompressionPropertykKey_ RealTime, 
kCFBooleanTrue); 

VTSessionSetProperty(EncodingSession, kVTCompressionPropertyKey_ProfileLevel, 
kVTProfileLevel H264_High_AutoLevel); 

VTSessionSetProperty(EncodingSession ， 
kVTCompressionPropertyKey_AllowFrameReordering, kCFBooleanFalse); 

VTSessionSetProperty(EncodingSession， 
kVTCompressionPropertyKey_MaxKeyFrameInterval, 
(__bridge CFTypeRef)(@(fps))); 

VTSessionSetProperty(EncodingSession， 
kVTCompressionPropertyKey_ExpectedFrameRate, (__bridgecCFTypeRef)(@(fps))); 

VTSessionSetProperty(EncodingSession, kVTCompressionPropertyKey_DataRateLimits, 
(__bridge CFArrayRef )@[@(maxBitRate / 8), @1.0]); 

VTSessionSetProperty(EncodingSession, kVTCompressionPropertyKey_AverageBitRate, 
(__bridge CFTypeRef )@(avgBitRate)); 


这 里 面 第 一 个 参数 设置 的 是 需要 实时 编码 ， 第 二 个 参数 设置 的 是 
使 用 的 H264 的 Profile 是 High 的 AutoLevel 规 格 ， 第 三 个 参数 是 我 们 不 产 


生 B 帧 ， 第 四 个 参数 是 设置 天 键 帧 间隔 ， 也 束 古 通 弟 所 指 的 gop size， 

第 五 个 参数 是 设置 帧 率 ， 第 六 个 参数 和 第 七 个 参数 共同 用 于 控制 编码 
狼 输 出 的 码 率 。 设 置 完 这 些 参数 之 后 ， 调 用 
VTCompressionSessionPrepareToEncodeFrames 方 法 ， 告 诉 编码 右 开 始 编 
码 。 下 面 把 构建 会 话 与 设置 参数 的 这 部 分 代码 封装 到 H264HW-Encoder 
类 的 初始 化 方法 中 ， 该 初始 化 方法 签名 如 下 : 


- (void)initEncode:(int)width height:(int)height fps:(int)fps 
maxBitRate: (int)maxBitRate avgBitRate: (int)avgBitRate; 


在 最 开始 创建 该 会 话 的 时 候 指 定 了 一 个 回调 函数 ， 该 回调 函数 是 
在 编码 絮 编 码 成 功 一 帆 之 后 ， 把 编码 成 功 的 这 一 帧 数据 构造 成 一 个 
CMSampleBuffer 结 构 体 以 回调 这 个 函数 ， 开 发 者 要 在 这 个 回调 函数 里 
处 理 数 据 。 我 们 在 第 一 步 中 仪 仪 明确 了 编码 絮 的 输入 和 输出 ， 其 实 并 
没有 说 明 编 码 絮 具体 是 如 何 使 用 的 ， 具 体 来 说 是 在 使 用 我 们 封装 的 
H264HWEncoder 类 的 encode 方 法 的 时 候 ， 输 入 参数 是 一 个 
CVPixelBuffer， 然 后 构造 当前 编码 视频 帧 的 时 间 惟 以 及 时 长 ， 最 后 调 
用 编码 会 话 对 这 三 个 参数 进行 编码 。 代 码 如 下 : 


Int64 t currentTimeMills = CFAbsoluteTimeGetCurrent() * 1000 ， 
if(-1 == encodingTimeMills){ 
encodingTimeMills = currentTimeMills,; 


int64_t encodingDuration = currentTimeMills - encodingTimeMills; 
CVImageBufferRef imageBuffer = (CVImageBufferRef) 
CMSampleBufferGetImageBuffer(sampleBuffer); 
CMTime pts = CMTimeMake(encodingDuration, 1000.); // timestamp is in ms. 
CMTime dur = CMTimeMake(1, m fps); 
VTEncodeInfoFlags flags,; 
OSStatus statusCode = VTCompressionSessionEncodeFrame(EncodingSession, 
imageBuffer, 
pts, 
dur, 
NULL, NULL, &flags); 
if (statusCode != noErr) { 
error = @"H264: VTCompressionSessionEncodeFrame failed "; 
return; 


上 


待 编码 做 编码 成 功 之 后 ， 束 会 回调 最 开始 初始 化 编码 邦 会 话 时 传 
入 的 回调 函数 ， 回 调 函 数 的 原型 如 下 : 


void didCompressH264(void *outputCallbackRefCon, 
void *sourceFrameRefCon, 


OSStatus status, VTEncodeInfoFlags infoFlags, 
CMSampleBufferRef sampleBuffer ) 


开发 者 应 该 在 该 回调 函数 中 处 理 编码 之 后 的 数据 ， 首 先 判断 
status， 如 果 编 码 成 功 则 返回 0 〈 实 际 上 头 文件 中 定义 了 一 个 枚 举 类 型 是 
noErr) ; 如 采 不 成 功 则 不 处 理 。 成 功 的 话 首 先 来 判断 编码 成 功 之 后 的 
当前 帧 是 否 为 关键 是 ， 判 断 关 键 帧 的 方法 如 下 : 


CFArrayRef array = CMSampleBufferGetSampleAttachmentsArray(sampleBuffer, true); 
CFDictionaryRef dic = (CFDictionaryRef)CFArrayGetValueAtIndex(array, 0); 
BOOL keyframe = !CFDictionaryContainsKey(dic, kCMSampleAttachmentkey_NotSync); 


为 什么 要 判断 关键 帧 呢 ? 因 为 VideoToolbox 编 码 絮 在 每 一 个 关键 帧 

前 面 都 会 输出 SPS 和 PPS 信 息 ， 所 以 如 果 本 帧 是 关键 帧 ， 则 取出 对 应 的 

SPS 和 和 PPS 信息。 那么 如 何 取 出 对 应 的 SPS 和 PPS 信 息 呢 ?图 6-21 中 提 到 

CMSampleBuffer 中 有 一 个 成 员 是 CMVideoFormatDesc， 而 SPS 和 PPS 信 
县 融 存 在 于 这 个 对 于 视频 格式 的 摘 述 里 面 。 取 出 SPS 的 代码 如 下 : 


CMFormatDescriptionRef fmt =CMSampleBufferGetFormatDescription(sampleBuffer ) ， 

size_t sparameterSetSize, sparameterSetCount; 

const uint8_t *SparameterSet ， 

size_t paramSetIndex = 0;// 代表 sps 

OSStatus statusCode = CMVideoFormatDescriptionGetH264 

ParameterSetAtIindex(fmt, paramSetIndex, &sparameterSet, &sparameterSetSize, 
&sparameterSetCount, © ); 


同样 ， 取 出 PPS 的 代码 如 下 : 


size_t pparameterSetSize, pparameterSetCount; 

const uint8_t *pparameterSet ， 

size_t paramSetIndex = 1;// 代表 pps 

OSStatus statusCode = CMVideoFormatDescriptionGetH264 

ParameterSetAtIindex(fmt, paramSetIndex, &pparameterSet, &pparameterSsetSize, 
&pparameterSetCount, © ); 


这 样 就 可 以 取出 SPS 和 PPS 的 信息 了 ， 接 着 再 把 这 一 帧 (有 可 能 十 
关键 帧 也 有 可 能 是 非 关 键 帧 ) 的 实际 内 容 提取 出 来 进行 处 理 。 首 先 ， 
取出 这 一 帧 的 时 间 稚 ， 代 码 如 下 : 


CMTime pts = CMSampleBufferGetPresentationTimeStamp(buffer); 
double presentationTimeMills = CMTimeGetSeconds(pts)*1000 


然后 再 取出 具体 的 压缩 后 的 数据 ， 代 码 如 下 : 


CMBlockBufferRef data = CMSampleBufferGetDataBuffer(buffer); 


取出 真正 的 压缩 后 的 数据 CMBlockBuffer 之 后 ， 然 后 就 可 以 访问 这 
岂 内 存 并 取出 具体 的 数据 了 ， 然 后 写 文件 ， 共 体 的 代码 可 以 参考 项 目 
实例 中 的 代码 。 


最 后 是 释放 编码 器 ， 首 先 调 用 
VTCompressionSessionCompleteFrames 方 法 强制 编码 絮 完 成 编码 行为 ， 
然后 调用 VTCompressionSessionInvalidate 方 法 结束 编码 姨 会 话 ， 最 终 调 
用 CFRelease 方 法 释放 编码 器 会 话 。 释 放 编 码 器 方法 的 签名 为 : 


- (void)endCompresseion 


2. 将 编码 融 集 成 进 系统 


前 面 已 将 VideoToolbox 成 功 地 封装 到 我 们 目 己 的 类 中 了 了， 并且 提 供 
了 调用 的 接口 ， 这 里 会 把 该 H264HWEncoder 集 成 到 6.2.2 节 给 出 的 预览 
实例 中 ， 然 后 提供 一 个 按钮 ， 点 击 编码 按钮 可 以 将 预 砚 的 内 容 编码 并 
且 写 入 一 个 H264 文 件 中 ， 点 击 停止 则 停止 编码 。 


6.2.2 廊 已 经 按照 我 们 的 设计 将 Camera 连 接 到 了 GLImageView 上 面 
了 ， 而 基于 之 前 的 设计 ，Camera 是 输入 端 ， 它 将 处 理 完 的 纹理 对 象 传 
递 给 GLImageView， 而 GLImageView 是 一 个 输出 节点 ， 是 让 用 户 可 以 在 
屏幕 上 看 见 预 贞 图 像 的 输出 节点 。 本 节 即 将 编写 的 Video-Encoder 也 是 
一 个 输出 节点 ， 该 输出 太 点 是 编码 并 写 到 磁盘 中 的 ， 所 以 先 编写 一 个 
Video-Encoder， 计 Camera 也 连接 到 我 们 的 VideoEncoder 上。 首先 建立 
ELImageVideoEncoder 实 现 ELImageInput 这 个 Protocol， 代 表 我 们 新 建立 
的 这 个 下 点 是 可 以 被 输入 纹理 对 象 的 ， 然 后 编写 初始 化 方法 ， 可 以 让 
初始 化 方法 定义 

DT 下: 


- (id) initwithFPS: (float) fps maxBitRate:(int)maxBitRate 
avgBitRate:(int)avgBitRate encoderWwidth:(int)encoderwidth 
encoderHeight:(int)encoderHeight; 


由 于 我 们 实现 了 ELImageInput 这 个 Protocol， 所 以 需要 实现 保存 输 
入 纹理 的 方法 和 演 染 纹理 的 方法 。 新 建 一 个 ELImageTextureFrame 指 针 
类 型 的 纹理 来 保存 输入 的 纹理 对 象 ， 然 后 建立 一 个 EncoderRenderer 来 
演 染 输入 的 纹理 对 象 ， 而 这 个 泻 染 过 程 其 实 就 是 将 输入 纹理 对 象 渲染 
到 编码 纹理 对 象 之 上 ， 但 是 这 里 有 两 点 需要 注意 。 


第 一 点 ， 由 于 要 将 纹理 对 象 泻 染 之 后 再 放 到 编码 器 中 ， 因 此 会 涉 
及 OpenGL 坐 标 系 到 计算 机 坐标 系 的 转换 ， 故 而 这 里 在 浑 染 到 目标 纹理 
对 象 的 时 候 要 把 整个 图 像 HFlip 一 下 ， 即 将 每 个 坐标 的 Y 顶 点 0、1 互 换 
一 下 。 物 体 坐 标 如 下 : 


static const GLfloat imageVertices[] = { 
-1.0f, -1.0f, 
1.0f, -1.0f, 
-1.0f, 1.0f, 
1.0f, 1.0f, 


纹理 坐标 如 下 : 


static const GLfloat hFlipTextureCoordinates[] = { 
0.0f, 1.0f, 
1.0f, 1.0f, 
0.0f, ©.0f, 

1.0f, 0.0f, 

}; 


第 二 点 ， 由 于 泻 染 到 的 目标 纹理 对 象 需要 交 给 编码 器 进行 编码 ， 
即 我 们 的 目标 纹理 对 象 必 须 与 一 个 CVPixelBuffer 关 联 起 来 ， 所 以 在 构 
建 目 标 纹理 对 象 的 时 候 势 必 不 能 与 创建 普通 的 纹理 对 象 一 样 。 其 实 ， 
在 ELImageVideoCamera 闻 点 中 已 经 实现 了 将 一 个 纹理 对 象 和 一 个 
CVPixelBuffer 天 联 起 来 的 操作 ， 只 不 过 这 里 关联 的 纹理 格式 是 RGBA 的 
格式 ， 而 存储 的 像素 格式 会 使 用 10S 特 有 的 BGRA 格 式 。 代 码 如 下 : 


CVOpenGLESTextureCacheCreateTextureFromImage (kCFAllocatorDef 
ault, coreVideoTextureCache, renderTarget, NULL, GL_TEXTURE_2D, 
GL_RGBA, _width, _height, GL_BGRA,GL_UNSIGNED_ BYTE, 0, 
&renderTexture); 


其 中 renderTarget 就 是 一 个 CVPixelBuffer 的 引用 ， 如 此 一 来 
renderTexture 这 个 纹理 对 象 就 是 该 节点 的 泻 染 日 标 了 ， 只 不 过 这 里 的 演 
染 行为 是 将 图 像 做 一 个 上 下 翻转 。 再 来 看 最 天 键 的 一 步 ， 即 泻 染 完成 
之 后 ， 实 际 上 渲染 的 内 容 会 存在 于 这 个 CVPixelBuffer 中 ， 这 样 我 们 就 
可 以 将 该 renderTarget 传 递 给 编码 絮 进 行 编码 操作 了 。 当 然 ， 在 交 给 编 
码 器 之 前 先 要 进行 锁定 ， 编 码 器 使 用 完毕 之 后 要 解锁 这 个 
CVPixelBuffer。 有 具体 代码 可 以 参照 本 和 的 代码 示例 。 


3.iOS 平 台 高 层次 的 硬件 编 解 码 API 的 理解 


先 扩展 一 下 本 万 的 知识 面 ， 了 解 一 下 iOS 系 统 为 开发 者 提供 的 非常 
强大 的 多 媒体 API 库 ， 当 然 万 变 不 离 其 宗 ， 这 些 高 级 的 API 都 是 基于 我 
们 讲解 过 的 最 底层 的 VideoToolbox 进 行 封装 的 ， 并 且 提 供 了 单一 的 接口 
来 完成 菜 些 具体 的 事情 。 


AvFoundation 

* Decompress direct to display 

* Compress directly to file 

MAle (ss [es) ele)4 

* Decompress to CVPixelBuffer 
* Compress to CMSampleBuffer 


Core Media 


Core Video 


图 6-22 


如 图 6-22 所 示 ，iOSs 和 平台 提供 的 多 媒体 接口 是 从 底层 到 上 层 的 结 
构 ， 之 前 都 是 直接 使 用 VideoToolbox， 而 AVFoundation 是 基于 
VideoToolbox 进 行 的 封装 。 它 们 的 关注 点 不 一 样 : VideoToolbox 更 关注 
编码 成 为 内 存 中 的 CM-SampleBuffer 结 构 体 ， 以 及 解码 成 为 主 内 存 (或 
者 理解 为 显存 ) 中 的 CVPixelBuffer 结 构 体 ， 而 AVFoundation 则 更 关注 
于 解码 后 直接 显示 以 及 直接 编码 到 文件 中 。 下 面 重点 来 看 一 下 
AVFoundation 这 个 层次 提供 的 几 个 主要 API 。 


(1) AVAssetWriter 


从 名 字 上 可 以 看 出 ， 这 是 为 了 写 入 本 地 文件 而 提供 的 API， 该 类 可 
以 方便 地 将 图 像 和 音频 写成 一 个 完整 的 本 地 视频 文件 ， 首 先 来 看 一 下 
前 面 是 如 何 利 用 VideoToolbox 编 码 视频 文件 的 ， 如 图 6-23 所 示 。 
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图 6-23 


先 从 OpenGL ES 中 拿 到 纹理 对 象 ， 然 后 关联 到 CoreVideo 这 个 
framewotk 里 面 提 供 的 CVPixelBuffer 中 去 ， 然 后 提供 给 VideoToolbox 进 
行 编码 ， 最 终 将 其 写成 H264 文 件 或 者 封装 到 一 个 视频 文件 中 去 。 但 是 
如 果 仅 仅 是 写本 地 文件 ， 其 实 并 不 需要 这 么 厅 烦 ， 我 们 可 以 利用 iOS 圭 
装 好 的 API 很 简单 地 完成 这 种 场景 ， 如 图 6-24 所 示 。 
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图 6-24 


可 以 看 到 AVAssetWriterInput 将 编码 器 以 及 后 续 的 处 理 和 封装 的 工 
作 组 闭 到 了 一 起 ， 提 供 了 更 单一 的 接口 调用 ， 其 完成 的 功能 也 更 加 清 
晰 ， 这 也 是 iOS 平 台 提 供 的 多 媒体 API 强 大 的 地 方 ， 当 然 这 也 仅 限 于 本 
地 文件 。 如 果 是 直播 场景 ， 将 编码 后 的 码 流 推送 到 流 媒 体 服 务 器 的 
话 ， 束 不 能 使 用 这 个 API 了 ， 所 以 在 工作 中 需要 根据 场景 选择 不 同 的 技 
术 实 现 。 具 体 代 码 就 不 做 展示 了 ， 读 者 想 要 继续 了 解 的 话 ， 建 议 在 
GitHub 上 找到 GPUImage 框 女 ， 里 面 有 一 个 类 GPUImageMovieWriter 非 
常 详尽 地 使 用 了 这 个 API， 大 家 可 以 阅读 其 源码 。 


(2) AVAssetReader 


从 名 字 上 来 看 ， 这 是 为 了 读 取 本 地 文件 而 存在 的 一 个 类 ， 该 类 可 
以 方便 地 将 本 地 文件 中 的 音频 和 视频 解码 出 来 。 下 面 来 看 一 下 如 何 利 
用 VideoToolbox 解 码 视 频 ， 然 后 再 使 用 Video-Toolbox 编 码 成 为 一 个 本 地 
的 视频 文件 的 整体 过 程 ， 如 图 6-25 所 示 。 


虽然 前 面 还 没有 介绍 如 何 使 用 VideoToolbox 解 码 H264 数 据 ， 但 是 
大 家 可 以 认为 解码 就 是 编码 的 一 个 逆 过 程 ， 开 发 者 需要 上 自己 编写 很 多 
代码 来 控制 解码 絮 的 很 多 状态 ， 包 括 输 入 、 输 出 等 ， 而 在 AVFoundation 
中 ，iOS 平 台 则 直接 将 其 封装 成 为 一 个 更 高 级 的 API， 如 图 6-26 所 示 。 
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图 。6-26 


AVAssetReaderOutput 也 只 支持 本 地 文件 的 解码 ， 但 不 支持 网 络 媒 
体 文件 的 输入 ， 同 样 ， 这 里 也 不 再 进行 代码 展示 ， 如 果 读 者 有 兴趣 ， 
可 以 参考 GPUImage 框 架 中 的 GPUImageMovie 这 个 类 ， 其 在 离线 处 理 操 
作 的 场景 下 对 AVAssetReaderInput 这 个 API 的 使 用 有 比较 详尽 的 展开 。 


(3) AVAssetExportSession 


这 个 类 的 使 用 场景 比较 多 ， 比 如 拼接 视频 、 合 并 音频 与 视频 、 转 
以 及 压缩 视频 等 多 种 场景 ， 其 实 是 一 个 更 高 层次 的 封 闻 ， 如 
6-27 所 示 。 


AVAssetExportSession 
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图 6-27 


通过 图 6-25 可 以 看 到 ， 该 类 不 允许 我 们 做 中 间 的 处 理 操 作 ， 很 显然 
其 是 一 个 更 高 层次 的 封装 ， 它 只 允许 我 们 设置 一 些 预 设 值 和 提供 输入 
输出 文件 等 ， 所 以 相 比 使 用 VideoToolbox， 或 者 使 用 AVAssetReader 和 
AVAssetWriter 来 实现 ，AVAssetExportSession 提 供 的 功能 更 单一 ， 接 口 
也 更 人 简单。 该 API 只 能 按照 预 设 去 编码 文件 ， 而 不 能 指定 实际 的 码 率 以 
及 帧 率 等 细节 参数 ， 如 果 要 实现 这 个 功能 ， 则 只 能 通过 AVAssetReader 
和 AVAssetWriter 来 完成 。 所 以 在 我 们 的 工作 中 ， 不 同 的 场景 下 选用 不 
同 的 技术 实现 是 非常 重要 的 ， 这 不 单单 会 影响 开发 的 效率 ， 还 会 直接 
的 体验 。 学 习 iOS 平 台 多 媒体 的 开发 ， 了 解 这 些 API 且 非 常 有 
子 处 的 。 


本 方 的 代码 示例 是 代码 仓库 中 的 VideoToolboxEncoder 工 程 ， 进 入 
预览 界面 之 后 点 击 编码 按钮 开始 编码 ， 点 击 停止 按钮 之 后 ， 编 码 结 
束 ， 然 后 可 以 利用 Xcode 的 Devices 将 编码 之 后 的 H264 文 件 导 出 到 电脑 
上 ， 最 后 可 以 利用 ffplay 播 放 这 个 H264 文 件 ， 以 观看 效果 。 


当 使 用 ffplay 观 看 H264 文 件 的 时 候 ， 大 家 可 以 看 到 ， 刚 才 所 预 宽 的 
视频 现在 播放 的 速度 非常 快 ， 这 是 因为 裸 H264 的 流 是 没有 时 间 玲 概念 
的 ， 它 不 像 音频 那样 只 要 指定 好 采样 率 、 声 道 数 、 表 示 格 式 ， 声 首 的 
演 染 端 束 可 以 以 固定 的 频率 来 泻 染 首 频 数据 了 ， 虽 然 SPS 和 PPS 中 也 指 
明了 视频 的 宽 、 高 以 及 fps 等 信息 ， 但 是 普通 的 播放 融 并 不 文 持 按照 一 
定 的 频率 进行 播放 ， 播 放 这 个 H264 文 件 的 时 候 也 没有 声音 ， 不 过 不 要 
着 急 ， 第 7 章 中 将 会 完成 一 个 实例 一 一 视频 的 录制 App， 其 会 输出 一 个 


视频 播放 的 时 候 会 按照 正常 的 速率 ， 当 然 声音 也 可 以 正 
党 播放 。 


6.5 ”本章 小 结 


本 章 的 内 容 比较 多 ， 涉 及 Android 和 iOS 两 个 平台 音 视频 的 采集 和 
编码 ， 第 7 章 将 会 完成 一 个 视频 邓 制 的 应 用 ， 第 7 章 完 全 是 以 本 章 内 容 
作为 基础 的 。 所 以 读者 在 学 习 本 半 的 时 候 可 以 放 慢 脚步 ， 深 入 学 习 ， 
因为 只 有 充分 了 解 本 章 的 一 些 细 玉 ， 才 能 在 接 下 来 章节 的 学 习 中 更 加 
游 力 有 余 ， 同 时 在 日 党 工作 中 明 到 问题 时 也 会 比较 容易 解决 。 


第 7 革 ”实现 一 球 视 频 采 制 应 用 


第 6 章 讲解 了 音频 和 视频 的 采集 以 及 相应 的 编码 知识 ， 本 草 会 利用 
前 面 草 世 的 基础 知识 完成 一 款 视频 对 制 的 应 用 ， 分 别 从 Android 和 iOS 
两 个 平台 进行 实现 ， 大 家 在 学 习 完 本 章 内 容 之 后 会 对 视频 录制 有 一 个 
整体 的 认识 ， 现 在 让 我 们 开始 吧 ! 


7.1 视频 录制 的 架构 设计 


本 节 先 来 看 一 下 视频 录制 的 架构 设计 ， 大 家 在 工作 中 完成 一 个 项 
目 或 者 产品 的 某 一 个 欠 代 时 ， 首 先 应 该 根据 用 户 场景 进行 设计 ， 这 里 
所 说 的 设计 绝 不 是 写 一 大 堆 设 计 文 档 ， 而 是 对 功能 点 进行 拆 分 、 细 
化 ， 然 后 再 为 每 个 模块 找到 最 合理 的 实现 。 只 有 先 对 全 局 有 一 个 整体 
的 认识 ， 才 能 清楚 接 下 来 应 该 如 何 实现 每 一 个 模块 。 


下 面 分 析 一 下 需要 完成 的 场景 : 将 用 户 的 声音 和 画面 全 部 录制 下 
来 ， 生 成 一 个 MP4 文 件 ， 同 时 用 户 可 以 自己 选择 是 否 需 要 开启 背景 音 
乐 。 场 景 看 上 去 挺 简单 ， 然 而 针对 这 些 场 景 如 何 做 出 一 个 合理 的 架构 
设计 却 是 一 项 比较 复 洒 的 工作 ， 从 录制 视频 的 角度 来 讲 ， 每 个 平台 都 
有 目 己 独特 的 API 可 供 开 发 者 调用 ， 但 是 要 想 合理 地 使 用 这 些 API， 还 
得 将 业务 场景 拆 分 为 技术 模块 ， 4 E 确 定 其 实现 细 方 。 基 于 业务 场景 
分 析 ， 该 应 用 可 拆 分 为 两 部 分 : 一 部 分 是 音频 部 分 ， 一 部 分 是 画面 部 
pa | 可 以 先 对 音频 做 出 以 下 架构 设计 ， 如 图 
7-1 所 示 。 
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可 能 会 觉得 这 个 架构 比较 复杂 ， 毕 况 该 架构 图 ( 见 图 7- 
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析 结 束 之 后 ， 大 家 了 就 会 觉得 非常 清晰 明了 了 。 
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图 7-1 


完 从 高 层次 来 解读 这 张 架构 图 ， 图 7-1 的 最 上 面 的 那 一 部 分 ， 从 左 
到 右 依次 如 下 。 


第 一 个 模块 是 Input 模 块 ， 代 表 输 入 部 分 ， 第 一 个 输入 是 麦克 风 用 
来 采集 用 户 的 声音 ， 男 外 一 个 输入 是 伴奏 文件 解码 句 ， 用 来 解码 用 户 
选择 的 背景 音乐 ， 所 以 输入 部 分 将 由 这 两 部 分 共同 实现 。 


第 二 个 模块 征 Output， 代 表 输 出 模块 ， 第 一 个 输出 模块 束 是 利用 齐 
染 首 频 的 API 将 背景 首 乐 的 声音 播放 出 来 ， 在 iOS 平 台 上 如 果 用 户 戴 着 
耳机 的 话 ， 可 以 将 用 户 目 己 发 出 的 声音 同时 播放 出 来 ， 以 达到 耳 返 监 
听 的 功能 ， 第 二 个 输出 模块 是 记录 数据 ， 需 要 将 背景 首 乐 和 用 户 声 音 
的 数据 保存 下 来 ; 那 保存 到 哪里 呢 ? 就 是 接 下 来 介绍 的 第 三 个 模块 。 


第 三 个 模块 是 PCM 队 列 ， 应 该 把 青 景 音乐 和 用 户 声音 的 PCM 数 据 
存 入 队列 中 ， 该 队列 应 该 能 够 保证 多 线程 访问 时 候 的 线程 安全 性 。 


最 后 一 个 模块 瓯 是 Consumer 模 块 ， 该 模块 负责 从 第 三 个 模块 的 队 
列 里 面 取出 音频 PCM 数 据 ， 进 行 音频 AAC 的 编码 ， 并 且 最 终 封 装 到 
MP4 文 件 中 ， 属 于 一 个 消费 着 的 角色 ， 所 以 我 们 称 之 为 消费 者 模块 。 


在 对 模块 进行 了 拆 分 之 后 ， 再 在 Android 和 iOS 平 台 上 确定 其 技术 
实现 ， 对 应 到 每 一 个 平台 都 应 该 从 这 几 个 模块 来 进行 分 机 ， 确 定 应 该 
使 用 什么 技术 来 实现 模块 理应 完成 的 职 贡 。 


所 以 下 面 再 来 看 一 下 图 7-1 的 第 二 行 ，Android 平 台 的 实现 。 首 先是 
Input 模 块 ， 基 于 之 前 掌握 的 知识 我 们 知道 ， 对 于 音频 的 采集 需要 使 用 
AudioRecord 这 个 API 来 采集 用 户 的 声音 ， 同 时 需要 将 采集 出 的 音频 放 
入 第 三 个 模块 即 人 声 的 PCM 队 列 中 ， 对 于 提供 的 伴奏 文件 (MP3 格 式 
或 者 M4A 格 式 ) ， 可 以 利用 FFmpeg 写 一 个 伴奏 的 解码 器 ， 将 背景 音乐 
文件 解码 为 PCM 数 据 并 放 入 PCM 队 列 (解码 器 内 部 维护 的 队列 ) 中 ， 
以 供 后 续 的 播放 硕 API 播 放 给 用 户 ; 然后 是 Output 模 块 ， 从 目前 来 讲 ， 
在 Android 设 备 上 对 于 耳 返 监听 的 功能 并 没有 一 个 特别 成 熟 的 方案 ， 所 
以 在 这 里 就 不 实现 Android 的 耳 返 功能 了 ， 但 是 必须 要 让 用 户 听 得 到 背 
景 首 乐 ， 所 以 我 们 使 用 AudioTrack 来 播放 前 面 解码 好 的 伴奏 ， 同 时 把 播 
放 的 伴 肥 放 入 第 三 个 模块 中 的 伴奏 PCM 队 列 中 ， 而 对 于 PCMP 了 队列， 可 
以 使 用 C++ 自行 编写 一 个 线程 安全 的 链表 来 提供 先入 先 出 的 接口 以 完成 


队列 的 功能 ， 并 且 为 了 性 能 考虑 ， 可 以 将 该 队列 改造 成 为 一 个 Blocking 
Queue 的 形式 ;最 后 一 个 模块 是 Consumer 模 块 ， 即 开启 一 个 线程 在 后 台 
轮 询 伴奏 和 人 声 的 PCM 队 列 ， 取 出 伴奏 的 数据 和 人 声 的 数据 ， 合 并 

(Mix) 成 一 轨 音 频数 据 ， 利 用 MediaCodec 或 者 libfdk_aac 进 行 编码 ， 
最 终 利用 FFmpeg 的 Muxer 模 块 将 编码 后 的 AAC 数 据 封装 到 MP4 文 件 的 
声音 轨道 中 。 这 样 Android 平 台 上 的 技术 选 型 分 析 就 结束 了 ， 读 者 可 以 
对 照 架 构图 7-1 的 Android 部 分 梳理 一 下 。 


接 下 来 看 一 下 图 7-1 的 第 三 行 ，iOS 平 台 的 实现 ， 首 先是 Input 模 
块 ， 对 于 音频 的 采集 ， 应 该 使 用 RemoteIO 这 个 AudioUnit， 局 用 它 的 
InputElement 来 采集 人 声 数据 ， 伴 奏 的 播放 则 采用 第 4 章 中 掌握 的 知 
识 ， 使 用 AudioFilePlayer 这 个 AudioUnit 进 行 解码 伴奏 ， 然 后 使 用 一 个 
Mixer 的 AudioUnit 尾 两 轨 声 音 Mix 起 来 ， 为 后 续 节 点 提供 输出 ;其 次 是 
Output 模 块 ， 这 里 使 用 RemoteIO 该 AudioUnit 的 OutputElement 将 
MixerUnit 输 出 的 音频 播放 给 用 户 听 ， 同 时 将 该 AudioUnit 注 册 一 个 回调 
函数 ， 利 用 Converter 的 AudioUnit 转 换 为 SInt16 采 样 格式 表示 的 PCM 数 
据 放 入 到 音频 队列 中 ; 第 三 是 PCM 队 列 模块 ， 可 以 使 用 C++ 自行 编写 
一 个 线程 安全 的 链表 ， 提 供 先 入 移出 的 接口 以 完成 队列 的 功能 ， 并 且 
为 了 性 能 考虑 ， 可 以 将 该 队列 改造 成 为 一 个 Blocking Queue 的 形式 ， 而 
该 队列 的 代码 可 以 与 Android 平 台 共享 一 份 代码 进行 使 用 ， 最 后 是 
Consumer 模 块 的 实现 ， 开 启 一 个 线程 在 后 台 轮 询 PCM 了 队列， 取出 PCM 
数据 之 后 使 用 AudioToolbox 或 者 libfdk_aac 进 行 编码 ， 最 后 利用 FFmpeg 
将 编码 后 的 AAC 数 据 封装 到 MP4 文 件 的 声音 轨道 中 ， 这 个 模块 主要 是 
使 用 C++ 语言 调用 FFmpeg 的 API 来 实现 的 ， 所 以 可 以 与 Android 平 台 共 
享 一 份 代码 。 读 者 可 以 对 照 架 构图 7-1 的 iOS 部 分 再 梳理 一 下 。 


音频 架构 就 为 大 家 分 析 到 这 里 ， 接 下 来 再 分 析 一 下 视频 部 分 的 架 
构 ， 如 图 7-2 所 示 。 
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图 7-2 


相 比 于 音频 的 架构 设计 ， 视 频 的 架构 相对 更 简单 一 些 ， 可 以 看 到 
图 7-2 的 第 一 行 ， 也 是 拆 分 为 输入 、 输 出 、 队 列 和 消费 者 四 个 模块 ， 每 
个 模块 所 完成 的 功能 这 里 就 不 再 详细 的 叙述 了 ， 相 信 读 者 可 以 很 直观 
的 理解 ， 接 下 来 确定 一 下 各 个 模块 在 两 个 平台 的 技术 选 型 。 


对 于 Android 平 台 ， 本 书 的 第 6 章 已 经 开发 出 了 一 个 预览 和 编码 的 实 
例 ， 对 于 input 模块 的 实现 ， 可 以 直接 使 用 Camera 这 个 API。 而 对 于 
Output 模 块 则 分 为 两 部 分 : 一 部 分 是 预 咒 ， 通 过 使 用 EGL 和 OpenGL 并 
且 结 合 Java 层 的 SurfaceView 来 实现 ;另外 一 部 分 是 编码 ， 对 于 视频 的 
编码 ， 优 先 使 用 硬件 编码 ， 如 果 存 在 兼容 性 问题 ， 则 使 用 libx264 软 件 
编码 作为 保底 的 方案 来 实现 ， 最 终 编码 成 为 H264 的 数据 。 与 第 6 章 的 案 
例 不 同 的 是 ， 编 码 之 后 的 H264 数 据 不 可 以 再 写 入 文件 ， 而 是 要 放 到 第 
三 个 模块 即 H264 的 队列 中 ， 对 于 H264 的 队列 ， 同 样 可 以 使 用 一 个 线程 
安全 的 链表 来 实现 ， 链 表 中 的 每 一 个 节点 元 素 都 是 H264 的 数据 包 。 最 
后 一 个 模块 是 消费 者 模块 ， 我 们 在 Consumer 这 个 模块 中 取出 队列 中 的 
H264 数 据 包 利用 FFmpeg 的 Mux 模 块 封装 到 MP4 的 视频 轨道 中 ， 其 恰好 
与 之 前 封装 到 该 文件 中 的 音频 轨道 组 成 一 个 完整 的 MP4 文 件 。 


在 iOS 平 台 上 ，Input 模 块 的 实现 目 然 会 使 用 系统 提供 给 开发 者 的 
Camera 这 个 API 来 实现 。Output 模 块 分 为 预览 和 编码 两 个 部 分 ， 其 实在 
第 6 章 中 已 经 开发 出 了 一 个 预 和 狗 和 编码 的 实例 ， 预 宽 的 实现 直接 使 用 
EAGL 和 OpenGL 再 结合 自 定 义 的 一 个 UIView 来 完成 ;编码 的 实现 则 使 
用 VideoToolbox 进 行 硬 件 编码 ， 不 同 于 第 6 章 实 例 的 是 ， 编 码 之 后 的 


H264 数 据 不 要 直接 写 入 文件 中 ， 而 是 应 该 放 到 H264 的 队列 中 。 所 以 第 
三 个 模块 就 是 H264 队 列 模块 ， 对 于 H264 的 队列 ， 可 以 使 用 一 个 线程 安 
全 的 链表 来 实现 ， 链 表 中 的 每 一 个 节点 元 素 都 是 H264 的 数据 包 ， 该 模 
块 的 实现 可 以 与 Android 平 台 共 享 一 份 代码 。 最 后 一 个 模块 是 消费 者 模 
块 ， 从 Consumer 模 块 取出 队列 中 的 H264 数 据 包 ， 然 后 利用 FFmpeg 的 

Mux 模 块 封装 到 MP4 的 视频 轨道 部 分 ， 正 好 与 之 前 封装 到 该 文件 中 的 音 
频 轨 道 共 同 组 成 一 个 完整 的 MP4 文 件 ， 该 模块 主要 使 用 C++ 语言 调用 

FFmpeg 的 API 来 实现 ， 所 以 可 以 与 Android 平 台 共 享 一 份 代码 。 


其 实 ， 通 过 上 述 的 分 析 不 难看 出 来 ， 在 队列 的 实现 部 分 以 及 
Consumer 部 分 ， 两 个 平台 的 实现 是 一 模 一 样 的 ， 所 以 可 以 将 这 部 分 代 
码 抽 和 象 出 来 的 统一 接口 ， 使 用 C++ 语言 来 完成 ， 共 同和 运行 在 两 个 平台 之 
上 ， 这 样 做 不 仅 可 以 提升 开发 效率 还 能 够 降低 维护 成 本 。 上 述 的 架构 
设计 阶段 还 缺少 风险 分 析 ， 对 于 整个 架构 的 风险 分 析 来 说 ， 主 要 坪 便 
件 编码 右 的 羔 容 性 问题 ， 以 及 如 末 在 Android 平 台 使 用 软件 编码 紫 的 
话 ， 软 件 编码 大 的 性 能 问题 ， 还 有 一 个 风险 束 是 音 视 频 旦 分 开采 集 
的 ， 是 否 会 存在 音 视 频 同步 的 问题 。 对 于 测试 用 例 来 说 ， 在 测试 完 APP 
定位 的 主流 机 型 和 主流 系统 之 后 ， 可 以 针对 于 iOS 8.0 系 统 以 及 Android 
4.3 系 统 来 做 一 个 边缘 测试 ， 因 为 硬件 编码 的 API 都 是 以 这 两 个 版 本 的 系 
统 为 基础 开放 给 开发 者 的 。 接 下 来 的 每 一 节 均 将 会 完成 一 个 模块 的 代 
码 实现 ， 本 章 最 终 会 按照 整体 架构 图 实现 一 个 完整 的 系统 。 


7.2 ”音频 模块 的 实现 


本 节 会 基于 第 6 章 的 音频 采集 代码 继续 开发 ， 与 第 6 章 不 同 的 是 ， 
这 里 采集 的 首 频 数据 需要 放 入 队列 中 ， 而 不 是 写 入 文件 。 本 节目 先 来 
介绍 音频 队列 的 实现 ， 然 后 在 Android 平 台 和 iOS 平 台 分 别 给 出 具体 的 
实现 ;由 于 第 6 草 中 对 于 具体 如 何 采 集 音 频 已 经 介绍 得 非常 详细 了 ， 所 
以 本 市 会 偏重 于 如 何 将 采集 的 数据 放 入 队列 中 ， 以 及 如 何 播放 背景 音 


乐 。 


7.2.1 音频 队列 的 实现 


无 论 是 Android 平 全 还 是 iOS 平 台 ， 所 使 用 的 音频 队列 都 是 一 至 
的 ， 使 用 C++ 来 实现 一 个 音频 队列 ， 束 可 以 保证 在 两 个 平台 上 可 以 共 
同 使 用 。 下 面 来 看 一 下 这 个 队列 的 具体 实现 。 


首先 ， 确 定 该 队列 中 存放 的 元 素 ， 结 构 体 定义 如 下 : 


typedef struct AudioPacket { 
Short * buffer ， 
int size; 
AudioPacket() { 
buffer = NULL ， 
size = 0; 


} 
~AudioPacket() { 
if (NULL != buffer) { 
delete[] buffer; 
buffer = NULL ， 


} 
} AudioPacket; 


该 结构 体 定义 了 一 个 AudioPacket， 每 采集 一 段 时 间 的 PCM 首 频数 
据 ， 就 封装 成 为 一 个 这 样 的 结构 体 对 象 ， 然 后 放 入 到 PCM 队 列 中 。 这 
里 提 到 的 队列 是 线程 安全 的 队列 ， 可 以 目 行 编写 一 个 链表 来 实现 队列 
的 功能 ， 链 表 和 点 的 元 素 定 义 如 下 : 


typedef struct AudioPacketList { 
AudioPacket *pkt; 
struct AudioPacketList *next; 
AudiopacketList(){ 
pkt = NULL， 
next = NULL; 


} 
} AudioPacketList ， 


可 在 上 述 队 列 中 定义 一 个 mFirst 节 点 来 指 问 头 部 结 点 ， 定 义 一 个 
mLast 节 点 指向 尾部 节点 ， 为 了 保证 线程 的 安全 性 ， 需 要 定义 以 下 两 个 


变量 : 


pthread mutex_t mLock; 
pthread_cond_t mCondition; 


该 队列 提供 了 两 个 最 重要 的 接口 ， 分 别 是 push 和 pop， 下 面 分 别 定 
义 为 put 和 get 方 法 ， 代 码 如 下 : 


int put(AudioPacket* audioPacket); 


在 put 方 法 的 实现 中 ， 首 移 会 判断 是 否 abort 了 该 队列 ， 如 果 abort 了 
则 代表 队列 不 再 需要 操作 ， 和 直接 返回 :如果 不 是 abort 状 态 ， 那 么 需要 
将 客户 端 代码 封装 好 的 AudioPacket 实 例 组 装 成 一 个 链表 广 点 放 入 链表 
中 。 当 然 为 了 保证 线程 的 安全 性 ， 在 放 入 链表 的 过 程 中 要 先 上 锁 ， 然 
后 操作 和 链表。 在 放 入 链表 结束 之 后 发 出 一 个 signal 指 令 ， 因 为 get 方 法 
是 有 可 能 被 block 的 (由 于 这 里 实现 的 是 一 个 Blocking Queue) ， 所 以 
要 通过 发 送 signal 指 令 来 告诉 block 住 的 线程 可 以 继续 从 队列 中 获取 元 
素 ， 最 后 释放 鲍 。 代 码 如 下 : 


if (mAbortRequest) { 
delete pkt; 
return -1; 


} 
AudioPacketList *pkt1 = new AudioPacketList()， 
if (!pkt1) 

return -1; 
pkt1->pkt = pkt; 
pkt1->next = NULL; 
pthread_mutex_lock(&mLock ) ， 
if (mLast == NULL) 区 

mFirst = pkt1; 
} else { 

mLast->next = pkti1; 


mLast = pkt1; 
pthread_cond_signal(&mCondition); 
pthread mutex_unlock(&mLock); 
return ©; 


下 面 是 该 队列 提供 的 get 接 口 ， 方 法 原型 如 下 : 


int get(AudioPacket **audioPacket); 


该 get 方 法 主要 实现 将 mFirst 指 各 的 和 点 拿 出 来 返回 给 客户 端 代 
码 ， 并 且 将 mFirst 指 同 它 的 下 一 级 太 点 ， 如 果 当 前 队列 为 空 则 block 住 
(用 来 实现 Blocking Queue) get 方 法 ， 等 每 有 元 素 再 放 进 来 或 者 abort 
该 队列 之 后 才 会 返回 ， 实 现代 码 如 下 : 


AudioPacketList *pkt1; 
int ret = 0; 
pthread mutex_lock(&mLock); 


for (;; 
if (mAbortRequest) { 
ret = -1; 
break; 


pkt1 = mFirst,; 
If (pkt1) { 
mFirst = pkt1i->next; 
If (!mFirst) 
mLast = NULL; 
mNbPackets--， 
*pkt = pkt1i->pkt,; 
delete pkt1; 
pkt1 = NULL; 
ret = 1; 
break 
else { 
pthread cond wait(&mCondition, é&mLock); 


pthread mutex_unlock(&mLock); 
return ret; 


现在 ， 最 核心 的 两 个 方法 已 经 全 部 实现 了 ， 剩 下 的 承 是 abort 方 法 
了 ， 该 方法 需要 将 布尔 型 变量 mAbortRequest 设 置 为 tue， 并 且 同 时 要 
发 送 一 个 signal 指 令 ， 以 防止 别 的 线程 会 被 block 在 获取 数据 的 接口 中 
(get 方 法 中 ) 。 还 有 一 个 销毁 方法 ， 就 是 遍历 队列 中 所 有 的 元 素 ， 
然后 释放 它们 。 至 此 队列 实现 就 完成 了 ， 读 者 可 以 到 代码 目录 中 去 查 
看 一 下 源码 ， 对 比 进行 分 析 。 


7.2.2” Android 平台 的 实现 


本 证 将 完成 Android 平 台 上 Input 模 块 的 实现 ， 相 关 的 基本 代码 在 第 
6 章 中 已 经 实现 过 了 ， 本 市 会 根据 当前 的 整个 项 目 做 一 下 结构 调整 ， 最 
重要 的 是 ， 这 里 要 添 加 上 背景 音乐 ， 这 在 之 前 的 第 4 章 中 也 有 过 介绍 ， 
所 以 本 市 就 将 它们 综合 运用 起 来 ， 最 终 将 采集 到 的 人 声 和 解码 的 背景 
首 乐 的 两 部 分 PCM 首 频数 据 分 别 入 队 。 结 构图 如 图 7-3 所 示 。 
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1. 伴 答 的 解码 与 播放 


因为 要 为 录制 的 视频 增加 背景 首 乐 ， 所 以 这 里 又 要 回 到 伴奏 的 解 
码 与 播放 中 ， 第 4 章 中 已 经 实现 过 伴奏 的 解码 与 播放 ， 所 以 这 里 将 基于 
第 4 章 的 项 目 继续 进行 开发 。 


先 来 回顾 一 下 第 4 章 中 播放 器 是 如 何 工作 的 ， 首 匈 ， 基 于 FFmpeg 建 
立 一 个 伴 委 的 解码 右 ; 然后 建立 一 个 解码 控制 右 来 开启 一 个 线程 不 断 
地 调用 解码 器 ， 解 码 出 来 的 音频 数据 将 放 入 队列 之 中 ， 当 队列 元 素 达 
到 一 个 病 值 的 时 候 就 暂停 解码 ， 如 末 收 到 signal 指 令 就 继续 调用 解码 器 


解码 ， 同 时 解码 控制 器 将 为 客 尸 端 提 供 一 个 readSamples 方 法 ， 该 方法 
的 实现 中 ， 会 不 断 地 从 队列 中 获取 解码 好 的 伴奏 PCM 数 据 并 返回 给 客 
户 端 ， 此 外 ， 它 还 会 监测 队列 的 大 小 ， 当 队列 中 元 素数 目 小 于 某 个 财 
值 的 时 候 ， 发 送 一 个 signal 指 令 让 解码 线程 继续 工作 ; 接着 客户 端 将 使 
用 AudioTrack 作 为 播放 PCM 数 据 的 播放 器 ， 客 户 端 会 创建 一 个 播放 圳 
线程 ， 从 而 不 断 地 调用 解码 控制 妖 的 readSamples 方 法 ， 最 后 将 获取 出 
来 的 PCM 数 据 提供 给 AudioTrack 进 行 播放 ;， 当 停止 播放 的 时 候 ， 首 先 
停止 解码 控制 器 ， 然 后 停止 并 释放 AudioTrack 的 资源 ， 这 就 是 播放 器 的 
流程 。 忌 体 来 接 述 束 是 ， 解 码 控 制 器 中 的 解码 线程 作为 生产 者 将 解码 
的 PCM 数 据 放 入 到 一 个 解码 队列 当中 ， 而 在 客户 端 中 ，AudioTrack 上 所 
在 的 播放 线程 则 作为 消费 者 (调用 readSamples 方 法 ) ， 不 断 地 从 解码 
队列 中 拿 出 PCM 数 据 播 放 给 用 户 。 


在 当前 场景 之 下 ， 除 了 主 用 户 可 以 听 到 伴奏， 同时 还 需要 将 用 户 
听 到 的 伴 委 存储 下 来 ， 所 以 衣 先 要 修改 初始 化 方法 ， 在 初始 化 方法 中 
需要 添加 一 个 伴奏 音频 队列 的 初始 化 。 注 意 该 队列 和 上 述 的 解码 队列 
不 是 同一 个 队列 ， 解 码 队 列 会 作为 解码 线程 和 播放 万 这 一 对 生产 者 和 
消费 着 之 间 的 桥 薪 ， 而 这 里 的 队列 是 指 以 播放 着 作为 生产 着， 
Consumer 模 块 的 编码 线程 作为 消费 着， 所 以 该 队列 是 这 两 个 模块 之 间 
的 桥梁 。 为 了 全 局 都 可 以 访问 到 该 队列 ， 需 要 将 所 有 队列 都 放 到 一 个 
单 例 模 式 设计 的 池子 中 ， 初 始 化 两 个 队列 的 代码 如 下 : 


packetPool = LiveCommonPacketPool: :GetInstance( ); 
packetPool->initDecoderAccompanyPacketQueue( ) ， 
packetPool->initAccompanyPacketQueue(sampleRate, CHANNEL); 


接 下 来 要 修改 readSamples 方 法 ， 因 为 该 方法 不 再 只 是 为 上 层 的 播 
放 器 PCM 提 供 数据 ， 同 时 也 是 第 三 个 模块 的 伴奏 音频 队列 的 生产 者 ， 
职责 发 生 了 变化 ， 所 以 需要 将 该 解码 控制 器 中 的 方法 名 readSamples 修 
改 为 readSamplesAndProducePacket， 在 方法 的 实现 中 ， 将 该 伴 委 的 
AudioPacket 中 的 数据 复制 到 客户 端 之 后 ， 不 要 删除 该 伴奏 的 
AudioPacket， 而 是 直接 将 它 放 入 伴奏 音频 队列 之 中 。 代 码 如 下 : 


packetPool->pushAccompanyPacketToQueue(accompanyPacket ) 


这 样 就 把 第 4 划 中 的 音频 播放 器 项 目 适 配 到 我 们 的 系统 之 中 了 ， 是 
不 是 很 简单 呢 ? 读者 可 以 到 代码 仓库 中 找到 代码 从 头 再 分 析 一 衣 。 


2. 音 频 入 队 


第 6 章 中 直接 把 AudioRecord 采 集 出 来 的 音频 写 到 文件 中 去 了 ， 但 
是 在 当前 的 场景 下 是 不 能 够 直接 写 文 件 的 ， 而 是 应 该 放 到 人 声 的 PCM 
队列 之 中 ， 所 以 要 在 Native 层 新 建立 一 个 RecordProcessor 类 ， 主 要 负责 
维护 人 声 的 采集 以 及 声音 的 编码 线程 。 下 面 来 看 一 下 这 个 类 中 的 方法 
及 其 实现 ， 首 先是 初始 化 方法 : 


void initAudioBufferSize(int sampleRate, int audioBufferSize); 


该 方法 主要 是 将 采样 率 以 及 队列 中 每 一 个 元 素 的 大 小 作为 参数 传 
入 进来 ， 在 该 方法 的 实现 中 ， 首 先 将 这 两 个 参数 赋值 给 全 局 变量 ， 并 
且 按 照 audioBufferSize 分 配 一 块 audioBuffer 的 存储 空间 ， 用 于 积攒 采集 
到 的 音频 数据 ， 最 后 构造 出 编码 颖 ， 并 且 初 始 化 这 个 编码 右 ， 编 码 器 
模块 将 在 7.2.3 世 中 进行 实现 。 


接 下 来 再 看 第 二 个 方法 ， 该 方法 用 于 积攒 本 来 要 在 Java 层 写 入 文件 
的 PCM 的 Buffer， 并 且 将 其 放 入 队列 中 。 为 什么 要 积攒 呢 ? 因为 在 不 同 
的 设备 上 Java 层 的 AudioRecorder 每 次 采集 出 来 的 puffer 其 大 小 有 可 能 是 
不 同 的 ， 所 以 要 在 该 方法 内 部 做 一 个 积 摸 ， 当 积攒 到 初始 化 方法 中 设 
定 的 audioBufferSize 时 ， 再 将 这 一 段 buffer 构 造成 为 一 个 AudioPacket， 
然后 放 入 到 人 声 队 列 中 ， 下 面 移 来 看 一 下 积攒 的 逻辑 ， 代 码 如 下 : 


void pushAudioBufferToQueue(short* samples, int size) { 
int samplesCursor = 0; 
int samplesCnt = size; 
while (samplescnt > 0) { 

If ((audioSsamplesCursor + samplescCnt) < audioBufferSize) { 
cpyToAudioSamples(samples + samplesCursor, samplesCcnt); 
audioSsamplesCursor += samplescnt,; 
samplesCursor += samplescnt; 
samplescCnt = 0; 

} else { 
int subFullSize = audioBufferSize - audioSamplesCursor; 
cpyToAudioSamples(samples + samplesCursor, subFullSize); 
audioSsamplesCursor += subFullSsize,; 
samplesCursor += subFullSize; 
samplesCnt -= subFullSize; 
flushAudioBufferToQueue( ); 


对 这 上 段 代 码 的 分 析 具 体 如 下 ， 首 先 定 义 一 个 游标 来 表示 访问 到 
samples 这 个 buffer 的 哪个 位 置 ， 然 后 进入 一 个 循环 ， 将 该 buffer 的 数据 
全 都 拷贝 出 来 ， 直 到 全 部 都 使 用 完毕 了 再 退出 这 个 循环 ， 循 环 内 部 首 
先 会 判断 在 全 局 的 audioBuffer 中 是 否 有 足够 购 空 间 用 来 存放 该 buffer 的 
有 效 数 据 〈 就 是 buffer 中 还 没 被 取出 来 的 数据 ) ， 如 果 可 以 存放 ， 则 将 
有 效 数 据 全 部 都 拷贝 到 全 局 audioBuffer 中 ， 然 后 对 全 局 的 audioBuffer 的 
游标 和 当前 buffer 的 游标 增加 对 应 的 数值 ， 将 sampleCnt 设 置 为 0， 表 示 
当前 buffer 使 用 完毕 ， 如 果 全 局 的 audioBuffer 存 放 不 了 的 话 ， 那 么 就 先 
计算 出 全 局 的 audioBuffer 还 能 存放 多 少 ， 代 码 如 下 : 


int subFullSize = audioBufferSize - audioSamplesCursor ， 


上 述 代 码 可 实现 将 subFullSize 个 sample 从 当前 buffer 中 找 贝 到 全 局 
的 audioBuffer 中 去 ， 然 后 将 全 局 audioBuffer 对 应 的 游标 增加 
subFullSize， 将 当前 buffer 的 有 效 采 样 数 目 减 去 这 个 subFullSize， 最 后 再 
把 全 局 的 audioBuffer 封 泌 成 为 一 个 AudioPacket 放 入 人 声 队 列 中 。 将 
audioBuffer 封 装 为 AudioPacket， 并 且 放 入 队列 中 的 代码 如 下 : 


short* packetBuffer = new short[audioSsamplesCursor]; 
memcpy(packetBuffer, audioSamples, audioSsamplesCursor * sizeof(short)); 
AudioPacket * audioPacket = new AudioPacket()， 

audioPacket->buffer = packetBuffer ， 

audioPacket->Size = audioSamplesCursor; 
packetPool->pushAudioPacketToQueue(audioPacket ) ， 


上 述 代 码 就 是 flushAudioBufferToQueue 方 法 的 具体 实现 ， 实 际 上 就 
是 分 配 一 个 新 的 内 存 空间 ， 将 全 局 变量 audioBuffer 的 内 容 揽 贝 进去 ， 然 
后 封装 成 AudioPacket， 最 终 放 入 到 队列 中 。 

该 类 的 最 后 一 个 方法 就 是 销毁 方法 ， 该 方法 的 实现 非常 简单 ， 首 
先 要 释放 掉 在 初始 化 方法 中 分 配 的 全 局 audioBuffer 这 块 内 存 ， 然 后 需要 
调用 编码 器 的 销毁 方法 ， 最 终 再 释放 编码 器 这 个 类 。 


至 此 就 完成 了 伴奏 和 人 声 入 队 的 操作 ， 读 者 如 采 想 了 解 全 部 的 代 
码 可 以 在 代码 仓库 中 参考 对 应 的 代码 。 


7.2.3 ”iOS 平台 的 实现 


本 贡 要 完成 iOS 平 台 的 音频 采集 与 伴奏 播放 ， 同 时 将 采集 的 人 声 
PCM 数 据 和 播放 的 伴奏 PCM 数 据 合 并 (Mix) 成 一 轨 PCM 数 据 ， 并 存 
入 队列 中 ， 人 声 的 采集 在 第 6 章 中 已 经 有 了 具体 的 实现 ， 并 且 直 接 编 码 
到 人 三 盘 的 文件 中 去 了 ， 伴 奏 的 播放 在 第 4 章 中 也 有 过 实现 ， 本 会 基于 
这 两 个 实例 加 以 改造 ， 来 满足 当前 系统 的 需求 。 


1. 伴 过 的 解码 与 播放 


第 4 章 介 绍 的 播放 器 有 两 种 实现 方式 ， 第 一 种 是 使 用 
AudioFilePlayer 这 个 AudioUnit 再 加 上 RemoteIO 来 播放 伴奏 。 还 记得 第 6 
章 中 曾经 提 到 过 ， 有 一 个 MixerUnit 是 为 了 后 续 扩展 使 用 的 吗 ? 扩展 的 
地 方 束 在 这 里 了 ， 就 是 将 第 4 草 中 提 到 0 
连接 上 MixerUnit， 这 样 用 户 听 到 的 束 是 伴 芝 和 人 声 Mix 到 一 块 的 声 
了 ， 结 构 如 图 7-4 所 示 。 
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图 7-4 


本 节 将 重点 来 看 一 下 伴奏 的 解码 以 及 其 与 MixerUnit 的 连接 操作 ， 
具体 的 入 队 操 作 将 会 在 第 2 个 小 让 中 介绍 。 。 下 面 将 基于 第 6 章 中 的 


AnidioRaeoiier 有 时 兰 首 实 例 继 驻 志 进 行 开发 首先 从 构 义 造 AUGraph 的 类 中 找 
到 方法 addAudioUnitNodes， 添 加 以 下 代码 : 


AudiocomponentDescription playerDescription; 

bzero(&playerDescription, sizeof(playerDescription)); 
playerDescription.componentManufacturer = kAudioUnitManufacturer_Apple; 
playerDescription.componentType = kAudioUnitType_Generator 
playerDescription.componentSubType = kAudioUnitSubType_AudioFilePlayer; 
AUGraphAddNode(_auGraph, &playerDescription, &mPlayerNode); 


ee 的 含义 其 实 就 是 向 AUGraph 中 加 入 AudioFilePlayer 这 个 
AUNode， 然 后 在 get-UnitsFromNode 方 法 中 加 入 以 下 代码 : 


AUGraphNodeInfo(mPlayerGraph, mpPlayerNode, NULL, &mPlayerUnit); 


上 述 代 码 是 找 出 mPlayerNode 这 个 AUNode 对 应 的 AudioUnit， 并 赋 
值 给 全 局 变量 mPlayer-Unit， 以 方便 后 续 设 置 参 数 。 然 后 在 
setUnitProperties 方 法 的 最 后 一 行为 新 找 出 来 的 Audio-Unit 设 置 声音 格 
式 : 


AudioUnitSetProperty(mPlayerUnit, kAudioUnitProperty_StreamFormat, 
kAudioUnitScope_Output, 0, & clientFormat32float, 
sizeof(_clientFormat32float)); 


下 一 步 瓯 将 该 mPlayerUnit 连 接 到 Mixer 上 ， 首 先 需 要 更 改 Mixer 这 
个 AudioUnit 的 输入 Unit 的 数目 ， 即 将 在 该 函数 中 定义 的 局 部 变量 
mixerElementCount 更 改 为 2， 代 表 有 两 路 输入 要 给 到 Mixer 这 个 
AUNode。 由 于 现在 新 增 的 这 个 Player 的 AUNode 在 整个 AUGraph 中 还 是 
| ， 所 以 要 将 该 AUNode 连 接 到 mixerNode 的 bus 为 1 的 输入 
端 ， 代 码 如 下 : 


AUGraphConnectNodeInput(_auGraph, mpPlayerNode, 0, _mixerNode, 1); 


在 执行 完 AUGraphImitialize 方 法 之 后 ， 要 为 Player 这 个 AudioUnit 配 
置 参 数 ， 配 置 过 程 如 下 ， 首 移 客 户 端 代 码 将 需要 播放 的 本 地 伴奏 路 径 
传递 过 来 ， 将 其 设置 为 全 局 变量 playPath， 所 以 首先 需要 将 想 要 播放 的 
文件 设置 给 Player Unit， 代 码 如 下 : 


AudioFileID musicFile; 

CFURLRef songURL = (__bridge CFURLRef) _playPath; 

AudioFileOpenURL(songURL, kAudioFileReadPermission, ©0, &musicFile),; 

AudioUnitSetProperty(mPlayerUnit, kAudioUnitProperty_ 
ScheduledFileIDs, kAudioUnitScope_ Global, ©0, &musicFile, 
sizeof (musicFile)); 


紧 接 着 来 看 一 个 对 于 AudioFilePlayer 这 个 AudioUnit 来 说 非常 重要 
的 概念 ， 即 Scheduled-AudioFileRegion， 该 结构 体 是 AudioToolbox 里 面 
提供 的 一 个 结构 体 ， 从 名 字 上 来 看 即 可 知道 ，Scheduled Audio File 
Region 是 对 于 AudioFile 进 行 访问 计划 的 区 域 ， 其 实 该 结构 体 就 是 用 来 
控制 AudioFilePlayer 的 ， 结 构 体 里 面 可 以 设置 的 内 容 具 体 如 下 。 


:mAudioFile: 设置 为 要 播放 的 音频 文件 的 AudioFileID。 


:mFramesToPlay: 要 播放 的 音频 帧 数目 ， 可 以 通过 获取 要 播放 的 
AudioFile 的 Format 以 及 总 的 Packet 数 目 来 计算 。 


mLoopCount: 用 来 设置 循环 播放 的 次 数 。 


-mStartTime: 用 来 设置 开始 播放 的 时 间 ， 拖 动 (Seek) 操作 就 是 
通过 这 个 参数 来 设置 的 。 


-mCompletionProc: 用 来 设置 音频 播放 完成 之 后 的 回调 函数 。 
ImCompletionProcUserData: 用 来 设置 回调 函数 的 上 下 文 。 


在 配置 好 该 结构 体 之 后 ， 将 它 设置 给 AudioFilePlayer 这 个 Unit: 


AudioUnitSetProperty(mPlayerUnit, kAudioUnitProperty_ScheduledFileRegion, 
kAudioUnitScope_Global, 0,&rgn, sizeof(rgn)) 


最 后 给 出 AudioFilePlayer 的 最 后 一 部 分 配置 : 


UInt32 defaultVal = 0; 

AudioUnitSetProperty(mPlayerUnit, kAudioUnitProperty_ScheduledFilePrime, 
kAudioUnitScope_ Global, 0, &defaultVal, sizeof(defaultVal)); 

AudioTimeStamp startTime; 

memset (&startTime, 0, sizeof(startTime)); 

startTime.mFlags = kAudioTimeStampSampleTimeValid; 

startTime.mSampleTime = -1; 

AudioUnitSetProperty(mPlayerUnit, kAudioUnitProperty_SchedulestartTimeStamp, 
kAudioUnitScope_Global, 0, &startTime, sizeof(startTime)); 


注意 该 配置 过 程 必须 在 AUGraph 初 始 化 之 后 ， 否 则 是 不 生效 的 ， 
为 在 构造 的 AUGraph 初 始 化 之 后 才 会 初始 化 AudioFilePlayer 这 个 
AudioUnit， 所 以 配置 放 到 这 个 位 置 所 设置 的 参数 才 是 有 歼 的 ， 否 则 惑 
是 无 效 的 ， 这 与 将 AUGraph 中 的 AUNode 找 出 来 赋值 给 AudioUnit 非 常 类 
似 ， 如 果 没 有 打开 AUGraph 的 话 ， 就 相当 于 这 个 Graph 里 面 的 AUNode 
还 没有 人 被 实例 化 ， 我 们 也 不 可 能 找 出 所 对 应 的 AudioUnit。 


在 播放 的 过 程 中 ， 可 以 通过 获取 
kAudioUnitProperty_CurrentPlayTime 来 得 到 相对 于 所 设置 的 开始 时 间 的 
播放 时 长 ， 从 而 计算 出 当前 播放 到 的 位 置 。 


正确 配置 播放 夯 的 时 机 是 最 重要 的 ， 具 体 的 配置 信息 比较 简单 ， 
大 家 可 以 对 照 整 个 项 目 中 的 这 一 块 代码 示例 来 梳理 一 刀 。 


2. 首 频 入 队 


第 6 章 中 已 经 使 用 过 RemoteIO 这 个 AudioUnit 来 采集 音频 ， 然 后 直 
接 编 码 到 文件 中 ， 本 广 不 能 直接 写 入 文件 中 ， 而 是 封闭 成 
AudioPacket， 然 后 放 入 队列 中 ， 首 先 找到 为 RemoteIO 设 置 的 回调 函 
数 ， 在 这 里 ， 我 们 之 前 的 操作 是 从 前 一 级 MixerNode 中 取出 数据 ， 然 后 
瑟 文 件 ， 去 挥 该 贺 数 中 关于 写 文件 的 所 有 操作 ， 然 后 将 取出 来 的 数据 
封 狼 成 为 AudioPacket 并 放 入 到 队列 中 ， 但 是 队列 中 要 求 的 PCM 格 式 是 
SInt16 格 式 的 数据 ， 而 从 MixerNode 中 取出 来 的 格式 是 Float32 格 式 的 数 
据 ， 那 么 如 何 进行 转换 呢 ? 答案 非常 简单 ， 应 该 是 使 用 Convert-Node， 
其 整体 流程 具体 如 下 。 


第 一 步 ， 先 在 MixerNode 后 面 添加 上 一 个 Float32 转 换 为 SInt16 的 
ConvertNode， 但 是 ， 要 和 直接 将 该 ConvertNode 连 接 到 RemoteIO 的 输出 
问 实 际 上 是 不 可 以 的 ， 因 为 SImmt16 的 表示 格式 和 RemoteIO 要 求 的 输入 格 
式 不 匹配 ， 所 以 需要 在 该 ConvertNode 之 后 再 添加 一 级 ConvertNode， 用 
于 将 SInt16 格 式 转换 为 Float32 格 式 ， 然 后 将 第 二 个 ConvertNode 连 接 到 
原来 的 RemoteIO 之 上 ， 这 样 改造 之 后 束 可 以 形成 当前 场景 下 的 
AUGraph 了 了。 对 于 数据 的 获取 ， 可 以 在 第 一 个 ConvertrNode 对 应 的 Unit 
上 添加 一 个 RenderNotify 回 调 芳 数 ， 在 函数 中 将 数据 封 狼 为 AudioPacket 
并 送 入 队列 。 这 就 是 整个 流程 ， 我 们 来 共同 实现 一 下 。 


首先 构建 Float32 转 换 SInt16 的 ConvertNode， 代 码 如 下 : 


AudiocomponentDescription convertDescription; 

bzero(&convertDescription, sizeof(convertDescription)); 
convertDescription.componentManufacturer = kAudioUnitManufacturer_Apple; 
convertDescription.componentType = kAudioUnitType_FormatConverter; 
convertDescription.componentSubType = kAudioUnitSubType_AUConverter; 
AUGraphAddNode(_auGraph, &convertDescription, & c32fTo1i6iNode); 


然后 取出 该 AUNode 对 应 的 AudioUnit， 分 别 构 造 Float32 的 Format 与 
SInt16 的 Format， 然 后 将 这 两 个 Format 分 别 设置 给 AudioUnit 的 输入 和 输 
出 ， 代 码 如 下 : 


AudioUnitSetProperty(_c32fTo16iUnit, 
kAudioUnitProperty_StreamFormat, kAudioUnitScope_ Output, 0, 
&c16iFmt, sizeof(c1i6iFmt)); 

AudioUnitSetProperty(_c32fT0o16iUnit, 
kAudioUnitProperty_StreamFormat, kAudioUnitScope_Input, 0, 
&c32fFmt, sizeof(c32fFmt)); 


这 里 为 该 ConvertNode 的 AudioUnit 增 加 了 一 个 RenderNotify， 注 意 
这 里 设置 的 Render-Notify 和 之 前 设置 的 InputCallback 是 不 一 样 的 : 
InputCallback 是 当下 一 级 节点 需要 数据 的 时 候 将 会 调用 的 方法 ， 让 配置 
的 这 个 方法 来 填充 数据 ;但 是 RenderNotify 是 不 同 的 调用 机 制 ， 
RenderNotify 是 在 这 个 点 从 它 的 上 一 级 节点 获取 到 数据 之 后 才 会 调用 
该 男 数 ， 可 以 让 开发 者 做 一 些 额外 的 操作 〈 比 如 音频 处 理 或 者 编码 文 
ee ， 所 以 在 这 个 场景 下 使 用 RenderNotify 这 个 方法 会 更 合理 ， 代 码 
设置 如 下 : 


AudioUnitAddRenderNotify(c32fTO16iUnit, &mixerRenderNotify, 
(__bridge void *)self); 


在 mixerRenderNotify 这 个 回调 函数 中 ， 拿 到 的 PCM 数 据 就 是 SInt16 
RS 
;C0 下: 


AudioBuffer buffer = ioData->mBuffers[0]; 

int sampleCount = buffer.mDataByteSize / 2; 

short *packetBuffer = new short[sampleCount]; 
memcpy(packetBuffer, buffer.mData, buffer.mDataByteSize); 
AudioPacket *audioPacket = new AudiopPacket(); 
audioPacket->buffer = packetBuffer,; 

audioPacket->Size = buffer.mDataByteSize / 2,; 
packetPool->pushAudiopacketToQueue(audiopacket); 


接 下 来 ， 我 们 来 构建 将 SInt16 格 式 转换 为 Float32 格 式 的 
ConvertNode， 构 建 AUNode 的 方法 和 之 前 是 一 样 的 ， 但 设置 的 参数 和 
之 前 恰好 是 相反 的 ， 代 码 如 下 : 


AudioUnitSetProperty(_c1i6iT0o32fUnit, kAudioUnitProperty_StreamFormat, 
kAudioUnitScope_Output, 0, &c32fFmt, sizeof(c32fFmt)); 

AudioUnitSetProperty(_ci6iTo32fUnit, kAudioUnitProperty_StreamFormat, 
kAudioUnitScope_Input, 0, &c1i6iFmt, sizeof(c1i6iFmt)); 


最 后 将 c32fTol6iNode 连 接 上 cl6iTo32fNode， 将 cl6iTo32fNode 连 接 
到 RemoteIO 上 并 进行 播放 ， 代 码 如 下 : 


AUGraphCconnectNodeInput(_auGraph，_c32fTo16iINode，0，_c161ITo32fNode，0)， 
AUGraphConnectNodeInput(_auGraph, _ci6iTo32fNode, 0, _ioNode, 0); 


通过 上 述 的 一 系列 改造 ， 可 以 将 PCM 数 据 读 取 出 来 并 且 存 入 到 音 
频 队 列 中 ， 同 时 也 使 得 用 户 可 以 听 到 伴 玛 以 及 目 己 声音 的 耳 运 。 那 么 
PCM 数 据 在 首 频 队列 中 后 续 义 是 如 何 处 理 的 呢 ? 管 案 是 编码 ， 下 面 束 
来 进入 7.3 世 完成 音频 编码 模块 的 实现 吧 。 


7.3 ”音频 编码 模块 的 实现 


本 下 我 们 来 看 看 音频 的 编码 部 分 ， 音 频 编 码 可 以 使 用 硬件 编码 也 
可 以 使 用 软件 编码 ， 关 于 如 何 使 用 FFmpeg (软件 编码 方式 ) 、 
MediaCodec (Android 平 台 的 硬件 编码 方式 ) 和 AudioToolbox (iOS 平 
台 的 硬件 编码 方式 ) 将 PCM 编 码 成 为 AAC， 这 些 内 容 在 第 6 革 中 已 经 
详细 介绍 过 了 ， 本 章 中 首 频 编码 模块 的 输入 是 7.2 广 中 PCM 格 式 的 首 频 
队列 ， 输 出 则 存放 于 男 外 一 个 AAC 格 式 的 首 频 队列 之 中 。 本 市 不 会 再 
像 第 6 章 那 样 讲解 如 何 使 用 API 编 码 PCM 数 据 了 ， 而 是 重点 讲解 如 何 将 
该 编码 局 集成 到 整个 系统 中 来 ， 本 下 将 以 软件 编码 作为 示例 来 讲解 ， 
如 果 读 者 有 兴趣 ， 可 以 目 行 将 各 目 平台 的 硬件 编码 的 实现 集成 进来 。 


类 似 于 第 6 章 中 视频 编码 ， 音 频 的 编码 也 应 该 放 到 一 个 单独 的 线程 
中 ， 所 以 我 们 建立 一 个 类 AudioEncoderAdapter， 利 用 PThread 维 护 一 个 
编码 线程 ， 不 断 地 从 首 频 队列 中 取出 PCM 数 据 ， 然 后 调用 编码 絮 进 行 
编码 ， 使 其 成 为 AAC 数 据 ， 最 后 将 AAC 数 据 封 装 成 为 AudioPacket 数 据 
结构 ， 并 放 入 到 AAC 的 队列 中 。 其 中 ， 编 码 姻 是 我 们 自己 封 状 的 一 个 
AudioEncoder 类 ， 实 际 上 就 是 在 第 6 章 的 编码 需 类 基础 上 进行 的 修改 ， 
下 面 来 逐一 看 一 下 各 个 类 的 具体 实现 。 


7.3.1 ”改造 编码 器 


首先 来 看 一 下 AudioEncoder 类 ， 在 此 之 前 ， 先 回顾 一 下 第 6 章 中 编 
码 辟 的 结构 ， 当 时 在 初始 化 函数 中 直接 给 出 了 一 个 文件 路 径 ， 让 
FFmpeg 帮 我们 和 输出 到 这 个 文件 中 ， 在 这 里 则 需要 改造 一 下 。 


由 于 该 类 仅仅 负责 编码 而 不 需要 完成 封装 格式 以 及 写 文件 的 工 
作 ， 而 使 用 FFmpeg 其 实用 不 到 libavformat 模 块 ， 仪 仅 使 用 它 的 
libavcodec 模 块 就 可 以 完成 工作 了 ， 因 此 要 将 初始 化 方法 改造 一 下 ， 仅 
需要 分 配 出 编码 絮 ， 并 且 把 对 编码 妖 的 要 求 设置 进去 ， 分配 出 存放 
UU 的 缓冲 区 以 及 输送 给 编码 器 之 前 的 AVFrame 结 构 体 就 可 以 


实际 的 编码 过 程 也 需要 修改 一 下 ， 首 移 在 AudioEncoder 类 中 定义 
> 回调 方法 : 


static int fil1_pcm_frame_callback(int16_t *samples, int frame_size, 
int nb_channels, void *context) 


该 回调 函数 用 于 让 客户 端 代码 〈 即 调用 AudioEncoder 的 地 方 ) 提 
供 PCM 数 据 。 编 码 函 数 的 实现 会 对 PCM 数 据 进 行 编码 ， 编 码 之 后 是 
FFmpeg 中 AVPacket 的 结构 体 ， 最 后 将 该 FFmpeg 的 数据 结构 转换 为 我 
们 上 自己 定义 的 数据 结构 AudioPacket， 并 返回 给 调用 客户 端 。 


最 终 的 销 奴 方法 比较 简单 ， 释 放 抒 所 分 配 的 存放 PCM 数 据 的 缓存 
区 ， 以 及 编码 前 的 AVFrame 数 据 结构 ， 关 闭 编 码 器 上 下 文 并 且 释 放 即 


可 。 


这 束 是 编码 亏 类 的 改造 过 程 了 了 ， 由 于 其 实现 比较 简单 ， 代 码 融 不 
在 这 里 展示 了 ， 读 者 可 以 参照 代码 仓库 中 的 源码 进行 分 析 。 


7.3.2 ”编码 需 适 配 需 


本 市 将 完成 编码 絮 的 适配器 ， 即 AudioEncoderAdapter， 从 名 字 上 
残 可 以 看 出 该 类 厌 担 的 职责 ， 下 面 丈 来 实现 它 。 


上 首先， 提供 的 初始 化 方法 代码 如 下 : 


void init(LivePacketPool* pcmPacketPool, int audioSampleRate, int audioChannels, 
int audioBitRate, const char* audio_codec_name); 


初始 化 方法 需要 客户 端 (调用 这 个 方法 的 类 ) 将 PCM 数 据 存 放 的 
队列 传递 进来 ， 因 为 这 个 类 需要 将 该 队列 作为 数据 源 ; 此 外 ， 客 户 端 
还 需要 将 编码 文件 的 采样 率 、 声 道 数 、 比 特 率 以 及 编码 右 的 名 称 传递 
进来 ， 因 为 这 个 类 需要 根据 这 些 参 数 去 寻找 编码 右 并 配置 编码 右 。 这 
个 方法 的 实现 需要 构建 出 编码 后 的 AAC 存 放 队 列 ， 并 且 启 动 一 个 编码 
> 


audioEncoder = new AudioEncoder () ; 
audioEncoder->init(audioBitRate,audioChannels,audioSampleRate, 
audioCodecName,fill pcm_ frame_callback, this); 
while(isEncoding)t{ 
Audiopacket *audioPacket = NULL; 
int ret = audioEncoder->encode(&audioPacket); 
if(ret >= 0 && NULL != audiopacket){ 
aacPacketPoo1->pushAudioPacketToQueue(audioPacket ) ; 


} 

if (NULL != audioEncoder) { 
audioEncoder->destroy(); 
delete audioEncoder ， 
audioEncoder = NULL 


} 


编码 线程 的 最 开始 ， 将 会 利用 初始 化 函数 的 参数 来 实例 化 一 个 
7.3.1 廊 讲解 的 编码 占 ， 可 以 看 到 初始 化 编码 右 除 了 需要 上 壕 参数 以 
外 ， 还 要 加 上 一 个 回调 函数 ， 该 回调 函数 负责 按照 帧 大 小 和 声 道 数 取 
0 
疯 : 


int AudioEncoderAdapter : :getAudioFrame(int16 _t * samples, 
int frame_size, int nb_channels) { 
int SampJlecnt = frame_size * nb_channels; 
int samplesInShortCursor = 0; 
while (true) { 
if (packetBufferSize == 0) { 
int ret = this->getAudiopacket(); 
If (ret < 0) { 
return ret; 
} 


int copyToSamplesInShortSize = sampleCnt - samplesInShortCursor,; 
If (packetBufferCursor + copyToSamplesInShortSize <= packetBufferSize) 
memcpy(samples + samplesInShortCursor, packetBuffer 
+ packetBufferCursor, copyToSamplesInShortSize * 
sizeof(short)); 
packetBufferCursor += copyToSamplesInShortSize; 
samplesInSshortCursor = 0; 
break; 
} else { 
int SubPacketBufferSize = packetBufferSize - packetBufferCursor,; 
memcpy(samples + samplesInShortCursor, packetBuffer 
+ packetBufferCursor, subPacketBufferSize * 
sizeof(short)); 
SamplesInShortCursor += SubPacketBufferSize， 
packetBufferSize = 0) 
continue; 


~ 


} 


return frame_size * nb_channels; 


这 个 回调 函数 看 起 来 很 复杂 ， 下 面 丈 来 逐一 分 析 一 下 ， 在 这 个 函 
数 的 输入 参数 中 ， 和 硕 望 填充 的 帧 大 小 是 frame_size， 声 道 数 是 
nb_channels， 填 充 日 标 是 samples 这 一 块 内 存 区 域 ， 所 以 计算 得 出 需要 
填充 进去 的 采样 的 数目 就 十 : 


int SampJlecnt = frame_size * nb_channels; 


由 于 从 PCM 队 列 中 取出 的 PCM 的 buffer 大 小 与 编码 絮 需 要 我 们 填 
充 的 sampleCnt 的 大 小 并 不 一 定 相 同 ， 所 以 如 果 PCM 队 列 的 buffer 小 于 
sampleCnt， 则 需要 积攒 多 个 buffer 放 入 这 个 内 存 区 域 中 ， 如 果 大 于 
sampleCnt， 则 应 该 根据 要 求 进 行 拆 分 ， 并 放 入 下 一 次 编码 器 要 求 放 入 
的 内 存 区 域 中 。 所 以 这 里 需要 设置 一 个 samplesInShortCursor 的 变量 ， 
代表 已 经 为 该 填充 区 域 填 充 进 去 了 多 少 个 采样 ， 对 于 PCM 队 列 读 取出 
来 的 buffer， 可 用 packetBuffer 来 代表 ， 使 用 packetBufferSize 代 表 该 
，， 大 小 ， 使 用 packetBufferCursor 代 表 已 经 使 用 了 该 buffer 的 多 少 
个 数据 。 


如 果 PCM 了 队列 中 读 取 出 来 的 buffer 已 经 被 耗 尽 了 ， 则 调用 
getAudioPacket 方 法 (具体 的 实现 在 下 面 再 给 出 ) 去 PCM 队 列 中 读 取 一 
个 新 的 buffer: 如 果 返 回 的 值 小 于 0， 则 代表 已 经 结束 ， 就 返回 小 于 0 的 
值 ， 编 码 姻 则 结束 ， 如 果 返 回 的 值 大 于 0， 则 代表 正确 读 出 了 PCM 数 
据 ， 并 且 将 采样 存放 到 了 全 局 变量 packetBuffer 中 ， 采 样 数目 存放 到 了 
packetBufferSize 之 中 ， 首 先 来 计算 还 需要 为 编码 絮 填 充 的 内 存 区 域 填 
充 多 少数 据 : 


int copyToSamplesInShortSize = sampleCnt - samplesInShortCursor,; 


然后 判断 当前 PCM 队 列 读 取 出 来 的 Buffer 是 否 还 有 这 么 多 的 数据 
可 用 于 填充 : 


if (packetBufferCursor + copyToSamplesInShortSize <= packetBufferSize) 


如 有 果 packetBuffer 里 面 还 有 足够 多 的 数据 ， 那 么 就 撕 贝 数据 ， 然 后 
将 packetBufferCursor 的 大 小 加 上 拷贝 的 大 小 ， 如 采 数 据 不 够 用 ， 那 么 
束 完 计算 一 下 packetBuffer 里 面 还 有 多 少数 据 ， 并 把 镜 余 的 数据 全 部 都 
找 贝 到 编码 器 需要 我 们 填充 的 内 存 区 域 中 ， 然 后 将 packet-BufferSize 设 
置 为 0， 进 行 下 一 次 人 循环， 再 一 次 从 PCM 队 列 中 读 取出 新 的 
packetBuffer， 重 复 进 行 该 循环 中 的 控 作 ， 直 到 将 编码 妖 需 要 我 们 填充 
的 内 存 区 域 填 充满 了 为 止 。 


再 来 看 一 下 这 部 分 代码 中 的 getAudioPacket 方 法 ， 由 于 在 两 个 平台 

之 上 音频 采集 的 实现 不 同 ， 因 此 需要 进行 特殊 处 理 。 在 Android 平 台 
上 ， 伴 奏 和 人 声 都 要 单独 入 队 ; 而 在 iOS 平 台 上 ， 人 声 和 伴奏 是 合并 

(Mix) 之 后 再 入 队 ， 所 以 这 个 getAudioPacket 的 实现 就 有 所 不 同 了 。 
此 类 中 的 实现 就 是 iOS 平 台 的 实现 ， 因 为 OS 平台 的 实现 是 把 伴奏 和 人 
声 合 并 (Mix) 之 后 再 放 入 到 人 声 队列 之 中 的 ， 所 以 在 iOS 平 台 上 就 从 
人 声 队 列 中 取出 数据 直接 填充 packetBuffer 了 。 对 于 Android 平 台 ， 我 们 
需要 实现 一 个 子 类 ， 继 承 目 当前 类 并 且 重 写 getAudioPacket 方 法 ， 在 该 
方法 的 实现 中 首先 调用 父 类 方法 获取 到 人 声 数据 ， 然 后 再 读 取 伴奏 队 
列 中 的 PCM 数 据 ， 将 读 取 出 来 的 数据 与 父 类 填充 的 packetBuffer 进 行 合 
并 (Mix) ， 之 后 再 存 入 到 packetBuffer 中 ， 这 样 就 可 以 无 颖 地 接 入 到 
整个 系统 中 了 。 


继续 回 到 上 壕 编码 线程 的 主体 流程 中 ， 有 一 个 判断 isEncoding 的 
while 循 环 ， 这 个 布尔 型 变量 束 是 为 了 控制 编码 循环 的 ， 在 循环 中 不 断 
地 调用 编码 器 的 编码 方法 。 当 然 ， 编 码 絮 进行 编码 时 ， 第 一 步 束 是 调 
用 上 面 大 篇 幅 讲解 的 回调 函数 以 填充 PCM 数 据 ， 然 后 将 其 编码 成 为 一 
个 我 们 目 己 定义 的 结构 体 AudioPacket 并 返回 。 客 户 端 代码 获取 到 
AudioPacket 之 后 ， 若 判断 返回 值 是 正确 编码 ， 则 将 它 放 入 到 AAC 的 队 
列 之 中 ;如 果 返 回 值 是 编码 失败 的 话 则 跳出 循环 ， 并 最 终 销 毁 编 码 
矿 。 该 适配器 还 要 提供 一 个 销毁 的 方法 ， 进 入 销毁 方法 之 后 首先 将 
isEncoding 这 个 变量 设置 为 false， 进 而 丢 痉 PCM 的 队列 ， 然 后 等 待 编码 
线程 结束 ， 最 后 销毁 我 们 目 己 分 配 的 packetBuffer 等 资源 。 这 样 一 来 ， 
编码 器 适 配 絮 类 就 完成 了 ， 大 家 可 以 参照 代码 仓库 中 的 实际 代码 进行 


分 析 。 


画面 采集 与 编码 模块 的 实现 


本 和 会 基于 第 6 章 的 摄像 头 画 面 采集 的 工程 继续 进行 开发 ， 不 同 之 
处 在 于 编码 之 后 的 H264 数 据 不 会 直接 写 入 文件 ， 而 是 会 放 到 视频 队列 
之 中 ， 所 以 本 市 将 会 重点 介绍 视频 队列 的 实现 以 及 如 何 将 编码 之 后 的 
H264 数 据 放 入 队列 之 中 ， 如 有 条 读者 对 于 视频 画面 的 采集 与 编码 还 不 熟 


悉 的 话 ， 那 么 请 回 到 第 6 草 中 再 学 习 一 下 。 


/7.4 


7.4.1 ”视频 队列 的 实现 


视频 队列 的 实现 与 音频 队列 是 非 彰 类 似 的 ， 具 体 实 现在 此 束 不 再 
资 述 了 ， 但 是 要 看 一 下 具体 的 接口 ， 以 便 后 续 使 用 。 


初始 化 接口 ， 用 于 队列 的 初始 化 工作 ， 要 想 使 用 队列 ， 第 一 步 吏 
应 调用 如 下 这 个 方法 : 


void init(); 


入 队 接 口 ， 如 采 要 疝 队 列 中 存 入 一 个 视频 帧 ， 则 调用 该 接口 方 
法 ， 如 有 果 存 入 成 功 则 返回 0， 否 则 返回 负数 : 


int put(VideoPacket* VideoPacket ) ; 


从 队列 中 拿 出 一 个 视频 帧 ， 此 方法 为 一 个 阻塞 方法 ， 即 如 果 队 列 
为 空 束 会 阻塞 住 ， 直 到 队列 被 丢弃 或 者 有 了 新 的 视频 巾 。 如 有 果 正 确 获 
取 到 视频 帧 则 返回 0， 如 有 果 返 回 的 值 小 于 0， 则 代表 队列 被 丢弃 把 了 : 


int get(VideoPacket** packet); 


丢弃 队列 ， 即 不 再 接受 任何 入 队 和 出 队 的 请 求 ， 一 般 在 队列 使 用 
结束 之 前 调用 这 个 方法 : 


void abort(); 


接 下 来 的 这 个 方法 为 私有 方法 ， 当 队列 被 销毁 的 时 候 调用 ， 该 方 
法 会 把 队列 中 的 所 有 元 素 全 都 取出 来 并 且 销 毁 掉 : 


void flush(); 


另外 ， 其 所 存放 的 元 和 聚 与 音频 队列 也 是 不 一 样 的 ， 所 以 在 这 里 有 
必要 声明 一 下 各 个 视频 由 结构 体 的 具体 构成 : 


typedef struct VideoPacket { 
byte * buffer,; 
int size; 
int timeMills; 
int duration; 
VideoPacket() { 
buffer = NULL ， 
size = 0; 
timeMills = -1; 
duration = 0; 


} 
~VideoPpacket() { 
if (NULL != buffer) { 
delete[] buffer; 
buffer = NULL ， 


} 


} 
} VideoPacket,; 


可 以 看 到 该 结构 体 中 记录 了 这 一 帧 视频 帧 的 数据 和 数据 长 度 ， 以 
0 时 间 惟 与 时 长 ， 在 析 构 函数 中 会 释放 掉 视 频 帧 所 占 
、 子 O 


7.4.2 ” Android 平台 画面 编码 后 入 队 


在 Android 平 台 上 的 实现 将 基于 第 6 章 Android 平 台 的 人 硬件 编码 项 目 
进行 改动 ， 以 适 配 当 前 场景 下 的 需求 。 


先 找 到 HWEncoderAdapter 类 ， 然 后 找到 方法 drainEncodedData,， 
目前 这 个 方法 的 实现 是 从 MediaCodec 中 取出 编码 之 后 的 H264 数 据 ， 然 
后 写 入 文件 。 我 们 要 做 的 改造 陇 是 将 写 文件 的 代码 部 分 全 部 都 删除 
掉 ， 然 后 将 H264 的 数据 放 入 队列 之 中 。 在 改造 之 前 ， 我 们 再 来 回顾 一 
下 比较 重要 的 一 点 ， 就 是 MediaCodec 编 码 器 会 在 开始 编码 之 后 给 出 
SPS 和 和 PPS 信息， 并 且 PPS 是 放 在 SPS 之 后 的 ， 不 过 ， 两 者 会 放 在 同一 
帧 之 中 。 上 有 具体 应 该 如 何 判断 当前 帧 是 否 是 SPS 和 PPS 所 代表 的 数据 帧 
呢 ? 方法 如 下 。 


由 于 MediaCodec 编 码 絮 为 开发 者 提供 的 H264 数 据 是 有 一 个 开始 码 
的 ， 即 一 定 是 从 00000001 开 始 ， 之 后 才 是 帧 类 型 (NALU Type) ， 所 
以 可 以 通过 以 下 代码 来 取出 帧 类 型 (NALU Type) : 


int nalu_type = (outputData[4] & Ox1F); 


拿 出 数组 中 下 标 为 4 的 字 节 ， 使 其 和 0X1F 进 行 “ 相 与 ?的 操作 ， 得 
到 nalu_type， 将 nalu_type 和 H264 协 议 中 预 设 的 Type 进行 比较 ， 从 而 判 
断 其 到 底 是 何 种 类 型 的 NALU 类 型 。 我 们 之 前 的 操作 是 将 SPS 和 PPS 保 
存 下 来 ， 然 后 在 每 一 个 关键 帧 前 面 拼 接 上 SPS 和 PPS 信 息 。 但 是 在 Mux 
模块 (7.4.3 节 中 将 会 讲 到 ) 中 ， 将 H264 数 据 封装 (Mux) 到 一 个 MP4 
文件 中 的 时 候 ， 仅 需要 一 次 SPS 和 PPS 的 设置 ， 所 以 这 里 也 仅 需 要 将 
SPS 和 PPS 信 息 放 入 队列 中 一 次 。 在 判断 了 NALU Type 是 SPS 之 后 ， 就 
将 其 填 入 队列 之 中 ， 并 且 确 保 即便 再 有 SPS 和 PPS 人 信息， 也 不 会 再 一 次 
填 入 队列 之 中 ， 代 码 如 下 : 


if(isSPSUnwriteFlag)t 
VideoPacket* VideoPacket = new VideoPacket(); 
videoPacket->buffer = new byte[sizel]; 
memcpy(videoPpacket->buffer, outputData, size); 
videoPacket->size = size,; 
videoPacket->timeMills = timeMills; 
packetPool->pushRecordingVideoPacketToQueue(videoPacket); 


ISSPSUnwriteFlag = false; 


如 果 不 是 SPS 和 PPS 的 话 ， 那 么 就 直接 进行 封装 ， 使 其 成 为 
VideoPacket， 然 后 将 其 放 入 队列 之 中 ， 代 码 如 下 : 


VideoPacket* VideoPacket = new VideoPacket(); 
videoPacket->buffer = new byte[sizel]; 
memcpy(videoPpacket->buffer, outputData, size); 
videoPacket->size = size,; 

videoPacket->timeMills = timeMills; 
packetPool->pushRecordingVideoPacketToQueue(videopPacket); 


这 样 束 将 MediaCodec 编 码 出 来 的 H264 数 据 按照 与 Mux 模 块 约定 好 
的 格式 填 入 到 队列 之 中 了 。 本 节 仪 改动 了 人 硬件 编码 部 分 ， 软 件 编码 部 
分 不 再 进行 讲解 ， 但 是 代码 示例 中 会 有 针对 于 软件 编码 分 支 的 处 理 。 


7.4.3 ”iOS 平台 辆 面 编码 后 入 队 


在 iOS 平 台中 的 实现 也 会 基于 第 6 章 中 iOS 平 台 的 人 硬件 编码 项 目 进 

行 改动 ， 将 编码 后 的 H264 的 Packet 放 入 到 视频 队列 中 替换 掉 之 前 写 文 
件 的 操作 ， 以 供 后 续 的 Muxer 模 块 使 用 。 基 于 之 前 的 类 
H264HwEncoderHanlder 进 行 修改 时 ， 首 先 要 把 初始 化 方法 中 写 文件 的 
代码 全 部 去 除 掉 ， 然 后 修改 以 下 两 个 方法 ， 分 别 是 获取 SPS 和 PPS 的 方 
法 和 获取 一 帧 视频 帧 的 方法 。 通 过 第 6 章 我 们 已 经 知道 ， 每 一 帧 之 前 都 
必须 要 拼接 上 开始 码 (StartCode) ， 实 际 上 就 是 0000 0001， 当 解码 器 
每 一 次 碰 到 0000 0001 这 个 开始 码 的 时 候 ， 就 知道 这 是 一 个 数据 帧 的 开 
台 了 ， 并 且 在 解码 器 读 取 到 下 一 个 开始 码 之 时 ， 就 知道 这 一 帧 已 经 结 
束 了 ， 上 所 以 我 们 在 SPS、PPS 以 及 普通 的 视频 帧 前 面 都 要 拼接 上 这 样 一 
个 开始 码 来 表示 。 但 是 在 不 同 的 封装 格式 里 ， 对 于 视频 帧 的 封装 是 不 
确定 的 ， 所 以 这 里 仅 负 责 在 视频 帆 前 面 拼 接 上 开始 码 ， 然 后 发 送 到 视 
频 队 列 中 ， 后 续 的 封装 处 理 就 是 Mux 模 块 的 事情 了 。 由 于 SPS 和 PPS 在 
整个 编码 过 程 中 都 是 一 样 的 ， 所 以 仅 需 要 入 队 一 次 。 我 们 可 以 在 全 局 
变量 列表 中 新 增 一 个 布尔 类 型 变量 来 标志 是 否 做 了 SPS 和 PPS 入 队 ， 然 
后 将 SPS 和 PPS 前 面 都 加 上 开始 码 ， 并 将 这 个 数组 拼接 到 一 起 ， 封 装 成 
一 个 VideoPacket， 最 后 放 入 队列 之 中 。 代 码 如 下 : 


const char bytesHeader[] = "\x00\x00\x00\x01"; 

size_t headerLength = 4; 

VideoPacket* spsPpsPacket = new VideoPacket(); 

size _t length = 2 * headerLength + sps.length + pps. Jength ; 

spsPpsPacket->buffer = new unsigned char[length]; 

spsPpsPacket->size = int(length); 

memcpy(spsPpsPacket->buffer, bytesHeader, headerLength); 

memcpy(spsPpsPacket->buffer + headerLength, (unsigned 
char*)[sps bytes], sps.length),; 

memcpy(spsPpsPacket->buffer + headerLength + sps.length, 
bytesHeader，headerLength ) ， 

memcpy(spsPpsPacket->buffer + headerLength*2 + sps.length, 

(unsigned char*)[pps bytes], pps.length); 
spsPpsPacket->timeMills = 0; 
LivePacketPool::GetInstance()->pushRecordingVideoPacketToQueue(spsPpsPacket); 


在 上 述 代 人 码 中 可 以 看 到 ， 首 移 会 在 SPS 前 面 拼接 开始 码 ， 然 后 再 
拼接 SPS 的 内 容 ， 接 下 来 会 再 拼接 一 个 开始 码 ， 最 后 再 拼接 PPS 的 内 
容 ， 至 此 ， 这 一 帧 特殊 类 型 的 帧 就 拼接 完成 了 。 接 下 来 封装 成 为 一 个 
VideoPacket， 最 后 将 构造 好 的 这 个 packet 推 送 到 视频 队列 之 中 ， 一 般 


情况 下 这 会 是 视频 队列 中 的 首 帆 。 紧 接着 来 看 一 下 在 接受 到 一 帧 普通 
视频 帧 之 后 ， 应 该 如 何 做 ， 代 码 如 下 : 


const char bytesHeader[] = "\x00\x00\x00\x01"; 

size_t headerLength = 4; 

VideoPacket* videoPacket = new VideoPacket(); 

int length = headerLength + data.length; 

videoPacket->buffer = new unsigned char[length]; 

videoPacket->size = length; 

memcpy(videoPpacket->buffer, bytesHeader, headerLength),; 

memcpy(videoPacket->buffer + headerLength, (unsigned char*)[data bytes], 
data.1length); 

videoPacket->timeMills = miliseconds,; 

LivePacketPool: :GetInstance()->pushRecordingVideoPacketToQueue(videopPacket); 


可 以 看 到 ， 这 里 在 视频 帧 原始 数据 的 前 面 拼 接 上 开始 码 作 为 视频 
帧 的 数据 ， 然 后 再 将 数据 长 度 以 及 时 间 惟 共同 封装 到 结构 体 对 象 之 
中 ， 最 终 放 入 视频 队列 之 中 ， 而 放 入 队列 之 后 具体 如 何 进 行 封 狠 以 及 
物 由 将 在 柑 仆 米 的 7.5 忆 中 完成 六 


7.5 “Mux 模 块 


待 音 频 帧 和 视频 帧 都 编码 完毕 之 后 ， 接 下 来 就 是 将 它们 封装 到 一 
个 容器 (如 MP4、FLV、RMVB、AVI 等 ) 中 ， 这 样 才 可 以 形成 一 个 完 
整 的 视频 ， 在 架构 中 这 件 事情 是 通过 一 个 Mux 模 块 来 完成 的 。 对 于 这 
个 模块 的 输入 ， 在 前 面 各 个 模块 的 实现 中 都 已 经 陆续 展示 出 来 了 ， 这 
里 做 一 个 总 结 ，7.3 节 把 7.2 节 中 的 PCM 数 据 编码 成 为 了 AAC， 并 且 存 
放 到 了 音频 编码 的 队列 之 中 了 ; 7.4 节 已 经 把 摄像 头 采集 出 的 视频 帧 编 
码 成 了 H264， 并 存放 到 了 视频 编码 队列 之 中 ， 而 这 两 个 队列 就 是 Mux 
模块 的 输入 ， 那 么 这 个 模块 的 输出 又 是 什么 ? 在 本 章 的 场景 下 就 是 做 
盘 上 的 一 个 MP4 文 件 ， 当 然 也 可 以 是 网 络 流 媒 体 服务 器 ， 这 种 情况 下 
就 属于 直播 场景 了 。 


架构 设计 的 合理 性 


型 清楚 了 输入 和 输出 之 后 ， 融 可 以 进一步 扩展 一 下 思路 了 ， 由 于 
我 们 不 息影 响 采 集 以 及 实时 耳 返 和 预 砚 的 过 程 ， 因 此 要 在 编码 时 单独 
抽取 出 一 个 线程 来 。 那 为 什么 我 们 又 要 为 封装 和 文件 流 输 出 (对 应 于 
FFmpeg 的 Muxer 层 和 Protocol 层 ) 单独 抽取 出 一 个 线程 来 呢 ? 仔细 观察 
可 以 发 现 ， 编 码 其 实 是 一 个 CPU 密集 型 操作 〈 即 使 是 硬件 编码 ， 也 是 
要 占用 CPU 的 时 间 片 和 编码 的 硬件 设备 进行 内 存 数据 交换 的 ) ， 而 我 
们 的 封装 和 文件 流 输出 却 不 会 特别 耗费 CPU， 尤 其 是 当 文件 流 输出 到 
网 络 的 时 候 ， 因 此 不 应 该 由 输出 来 影响 整个 编码 过 程 。 拆 分 开 之 后 每 
个 模块 各 司 其 职 ， 统 一 接口 ， 对 整个 系统 的 维护 以 及 扩展 都 有 了 极 大 
的 好 处 ， 比 如 ， 由 软件 编码 升级 为 硬件 编码 ， 由 于 接口 不 变 ， 所 以 直 
接 更 改编 码 模块 的 实现 束 好 了 ， 或 者 我 们 的 封 逆 格式 由 MP4 转 换 为 
FLV 的 话 ， 也 只 需要 改动 封装 模块 。 


7.5.1 初始 化 


接 下 来 看 一 下 如 何 用 FFmpeg 实 现 格式 封 装 与 文件 流 输出 ， 经 过 之 
前 章节 对 FFmpeg 的 了 解 ， 大 和 家 应 该 已 经 十 分 清楚 ， 封 装 和 输出 其 实 残 
是 FFmpeg 里 面 的 libavformat 这 个 模块 所 承担 的 职责 ， 首 移 来 看 一 下 这 
个 模块 的 初始 化 方法 : 


int init(char* videoOutputURI, int videowidth, 
int videoHeight,float videoFrameRate,int videoBitRate, 
int audioSampleRate, int audioChannels, int audioBitRate, 
char* audio_codec_ name) 


初始 化 方法 的 参数 比较 多 ， 如 果 分 为 三 部 分 来 解释 就 会 很 清晰 
了 。 第 一 部 分 只 有 一 个 参数 ， 束 是 输出 的 文件 路 径 ， 第 二 部 分 束 是 视 
频 流 的 参数 ， 包 括 视 频 的 砚 、 高 、 帧 率 、 比 特 率 以 及 视频 编码 格式 
(默认 为 H264 格 式 ) ; 第 三 部 分 就 是 音频 流 的 参数 ， 包 括 音频 的 采样 
率 、 声 道 数 、 比 特 率 ， 以 及 音频 编码 需 的 名 称 。 这 个 初始 化 方法 的 实 
现 具 体 如 下 ， 构 造 一 个 Container (对 应 于 FFmpeg 中 的 结构 体 类 型 为 
AVFormatContext) ， 根 据 上 述 的 视频 参数 配置 好 一 路 视频 流 
(AVStream) 添加 到 这 个 Container 中 ， 然 后 根据 上 述 的 音频 参数 再 配 
置 一 路 音频 流 (AVStream) 添加 到 Container 中 。 下 面 再 来 看 一 下 具体 
实现 ， 第 一 步 匈 注册 FFmpeg 里 面 的 所 有 封装 格式 、 编 解码 事 以 及 网 络 
配置 开关 〈 如 有 果 需 要 将 视频 流 推送 到 网 络 上 的 话 ) : 


avcodec_register_all1()， 
av_register_all(); 
avformat_network_init(); 


然后 根据 输出 目录 来 构造 一 个 Container， 即 构造 一 个 
AVFormatContext 类 型 的 结构 体 ， 其 实 该 结构 体 束 是 FFmpeg 中 使 用 
libavformat 模 块 的 入 口 : 


AVFormatContext* oc; 
avformat_alloc_ output_context2(&oc, NULL, "flv", videoOutputURI); 
AVvOutputFormat* fmt = oc->oformat; 


接 下 来 构造 一 路 视频 流 ， 并 加 入 到 这 个 Container 中 。 首 先 按照 常 
量 AV_CODEC_ID_H264 找 出 H264 的 编码 器 ， 然 后 在 Container 中 增加 
一 路 H264 编 码 的 视频 流 ， 并 找 出 这 路 流 的 编码 器 上 下 文 ， 对 该 上 下 文 
的 属性 依次 赋值 ， 即 可 构造 好 这 路 视频 流 。 同 时 ， 这 路 流 也 已 经 被 正 
确 地 添加 到 了 Container 中 。 代 码 如 下 : 


AVCodec *video codec = avcodec find encoder(AV_CODEC_ID H264); 
AVStream *st = avformat new_stream(oc, video codec); 

st->id = oc->nb_streams - 1; 

AVCodecContext *c = st->codec,; 

->codec_id = AV_CODEC_ID_H264 

c->bit_rate = videoBitRate; 

c->width = videowidth; 

c->height = videoHeight,; 

c->time_base.den = 30000; 
C 
C 
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->time_base.num = (int) (30000 / videoFrameRate ) ， 

->gop_size = VideoFrameRate ， 

f (oc->oformat->flags & AVFMT_GLOBALHEADER ) 
c->flags |= CODEC_FLAG_ GLOBAL_HEADER; 


接 下 来 构造 一 路 首 频 流 ， 整 个 过 程 和 视频 流 的 构建 非常 类 似 ， 不 
同 的 是 ， 编 码 占 是 通过 传递 进来 的 编码 右 名 称 来 寻找 的 ， 代 码 如 下 : 


AVCodec *audio_codec = avcodec_find_encoder_by_name(codec_name ) ， 
AVStream *st = avformat_new_ stream(oc, audio_codec); 

st->id = oc->nb_streams - 1; 

AVCodecContext *c = st->codec,; 

->sample_fmt = AV_SAMPLE_FMT_S16; 

->bit_rate = audioBitRate,; 

->codec_type = AVMEDIA_TYPE_AUDIO; 

->sample_rate = audioSampleRate,; 

->channel_layout = audioChannels == 1 ? AV_CH_LAYOUT_MONO : 
AV_CH_LAYOUT_STEREO,; 

c->channels = av_get_channel layout_nb_channels(c->channel_ layout); 
c->flags |= CODEC_FLAG_ GLOBAL_HEADER; 
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和 视频 流 不 同 的 是 ， 完 成 首 频 流 的 添加 之 后 ， 这 里 需要 为 编码 器 
上 下 文 设置 一 下 extradata 变 量 ，FFmpeg 对 于 在 编码 端 设 置 这 个 变量 的 
目的 是 ， 为 解码 器 提供 原始 数据 ， 从 而 初始 化 解码 姻 。 还 记得 之 前 编 
码 AAC 的 时 候 要 在 编码 出 来 的 数据 前 面 加 上 ADTS 的 头 吗 ?” 其 实在 
ADTS 头 部 信息 里 面 可 以 提取 出 编码 如 的 Profile、 和 采样 率 以 及 声 道 数 的 
信息 ， 但 是 在 FFmpeg 中 并 不 是 每 一 个 AAC 的 头 部 都 能 添加 上 这 些 信 
居 ， 而 是 在 全 局 的 extradata 中 配置 这 些 信 息 。 屠 么 ， 来 看 一 下 如 何 为 
FFmpeg 的 首 频 编码 右上 下 文 来 设置 这 个 extradata: 


int profile = 2; // AAC LC 

int freqIdx 4; // 44.1Khz 

int chancfg = 2; // Stereo Channel 

char dsi[2]; 

dsi[0] = (profile<<3) | freqIidx>>1); 
dsi[1] = ((freqIdx&1)<<7) | (chancfg<<3); 
memcpy(c->extradata, dsi, 2); 


读者 可 能 会 有 疑问 ， 视 频 流 的 这 个 extradata 变 量 该 如 何 设置 呢 ? 
天 于 视频 流 编 码 右 中 的 变量 设置 将 会 在 7.5.2 市 中 讲解 ， 因 为 视频 流 中 
的 这 个 变量 存放 的 是 SPS 和 PPS 的 信息 ， 是 由 编码 器 在 编码 过 程 的 第 一 
步 输出 的 ， 所 以 需要 放 在 7.5.2 节 来 讲解 。 同 时 我 们 也 要 配置 一 个 音频 
格式 转换 的 滤波 器 ， 束 是 ADTS 到 ASC 格 式 的 转换 器 ， 人 代码 如 下 : 


bsfc = av_bitstream filter_init("aac_adtstoasc" ) ， 


上 述 步 骤 完 成 之 后 说 明 我 们 的 Container 即 封装 格式 已 经 初始 化 好 
了 ， 然 后 就 是 打开 文件 的 连接 通道 ， 可 调用 FFmpeg 的 Protocol 层 来 完 
成 操作 ， 代 码 如 下 : 


AVIOInterruptCcB int_cb = { interrupt_cb, this }; 

oc->interrupt_callback = int_cb,; 

avio_open2(&oc->pb, videoOutputURI, AVIO_FLAG WRITE, 
&oc->interrupt_callback, NULL); 


如 果 上 述 代 码 中 的 avio_open2 函 数 的 返回 值 大 于 等 于 0， 则 将 
isConnected 变 量 设置 为 tue， 代 表 其 已 经 成 功 地 打开 了 文件 输出 通道 。 
唯一 需要 注意 的 一 点 是 ， 需 要 配置 一 个 超时 回调 函数 进去 ， 这 个 回调 
函数 主要 是 给 FFmpeg 的 协议 层 用 的 ， 在 实现 这 个 函数 的 时 候 ， 返 回 1 
则 代表 结束 MO 操作 ， 返 回 0 则 代表 继续 UVO 操 作 ， 超 时 回调 函数 如 下 : 


static int interrupt_cb(void* ctx) { 
if(getCurrentTimeMills() - latestFrameTime > 15 * 1000) 
return 1; 
return ©; 


} 


上 述 代码 表示 如 果 当 前 时 间 超 过 了 封装 上 一 帧 的 时 间 〈15s) ， 则 
终止 协议 层 的 IO 操作 ， 当 然 ， 每 次 封装 完 一 帧 之 后 承 要 更 新 
latestFrameTime 这 个 变量 。 这 个 回调 函数 的 配置 是 非常 重要 的 ， 特 别 


征 在 后 续 我 们 要 和 网 络 打 交道 的 时 候 。 初 始 化 方法 到 这 里 惑 配置 结束 
了 ， 接 下 来 看 一 下 实际 的 封装 和 和 输出。 


7.5.2” 封 痛 和 输出 


答 构 建 好 了 这 个 Container 之 后 ， 册 不 断 地 将 音频 帧 和 视频 帧 交错 
人 出 通道 写 出 到 文件 或 者 网 络 之 中 。 先 来 看 一 
和 尝 : 


int ret = 0; 
double video_ time = getVideostreamTimeInSecs(); 
double audio_ time = getAudiostreamTimeInSecs(); 
if (audio time < video time){ 

ret = write_ audio frame(oc, audio_st); 
} else { 

ret = write video frame(oc, video_ st); 


latestFrameTime = getCurrentTimeMills(); 
duration = MIN(audio_time, video_time),; 
return ret,; 


因为 音 视频 是 交错 存储 的 ， 即 存储 完 一 帧 视频 帧 之 后 ， 再 存储 一 
段 时 间 的 音频 〈 不 一 定 是 一 帧 音频 ， 这 要 看 视频 的 FPS 是 多 少 ， 因 为 
代码 中 是 按照 时 间 进 行 比较 的 ) ， 之 后 再 存储 一 帆 视 频 帧 ， 所 以 在 某 
一 个 时 间 点 是 要 封装 音频 还 是 封装 视频 ， 是 由 当前 两 路 流 上 已 经 封装 
的 时 间 礁 来 决定 的 。 所 以 代码 中 首先 要 获取 两 路 流 上 当前 的 时 间 玲 信 
息 ， 然 后 进行 比较 ， 将 时 间 玲 比较 小 的 那 一 路 流 进 行 封装 和 输出 ， 并 
且 更 新 latestFrameTime 变 量 用 来 辅助 前 面 配置 的 超时 回调 函数 ， 最 后 
一 步 ， 是 将 两 路 流 中 较 小 的 时 间 惟 作为 时 长 存储 下 来 。 接 下 来 分 别 看 
一 下 封装 和 输出 音频 以 及 视频 流 的 部 分 。 


封 疼 音频 流 时 ， 首 爷 从 AAC 的 音频 队列 中 取出 一 帧 音频 帆 : 


int ret = AUDIO_QUEUE_ABORT_ERR_CODE 

AudioPacket* audioPacket = NULL 
fillAACPacketCallback(&audioPacket, fillAACPacketContext); 
audioStreamTimeInsecs= audioPacket->position,; 


然后 取出 该 AAC 音 频 帧 的 时 间 惟 信息， 存储 到 全 局 变量 的 
audioStreamTimeInsecs 中 ， 作 为 要 写 入 音频 这 路 流 的 时 间 惟 信息， 以 
便于 在 编码 之 前 取出 首 频 流 中 编码 到 的 时 间 信息 。 然 后 将 该 AAC 的 
Packet 转 换 成 一 个 AVPacket 类 型 的 结构 体 : 


AVPacket pkt = { 0 }; 

av_init_packet(&pkt); 

pkt.data = audiopacket->data; 

pkt.size = audiopacket->size; 

pkt.dts = pkt.pts = lastAudiopacketPresentationTimeMills / 1000.0f / 
av_q2d(st->time_base); 

pkt.duration = 1024; 

pkt.stream_ index = st->index; 


接着 ， 将 上 述 代 码 中 的 pkt 作 为 我 们 调用 bitStreamFilter 转 换 的 输入 
Packet， 在 调用 完毕 转换 之 后 ， 将 ADTS 封 装 格式 的 AAC 变 成 了 一 个 
人 之 后 就 可 以 通过 输出 通道 进行 输出 了 ， 代 码 
具体 如 下 : 


AVPacket newpacket; 
av_init_packet(&newpacket); 
ret = av_bitstream filter_filter(bsfc, st->codec, NULL, 
&newpacket .data, &newpacket.size, pkt.data, pkt.size, 
pkt.flags & AV_PKT_FLAG_KEY); 
if (ret >= 0) { 
newpacket.pts = pkt.pts; 
newpacket.dts = pkt.dts,; 
newpacket .duration = pkt.duration; 
newpacket .stream_index = pkt.stream index; 
ret = av_interleaved write frame(oc, &newpacket ) ， 


av_free_packet(&newpacket); 


至 此 ， 就 将 从 队列 中 取得 的 一 帧 ADTS 封 装 格式 的 AAC 写 入 到 
Container 的 音频 流 中 了 。 下 面 来 看 一 下 如 何 将 其 封装 和 输出 到 视频 流 
中 ， 在 这 个 方法 的 实现 中 ， 首 先 填充 视频 编码 器 上 下 文中 的 
extradata， 这 一 点 非常 重要 。 和 否则 等 这 个 视频 进行 播放 的 时 候 ， 会 因 
为 解码 器 无 法 正确 初始 化 从 而 不 能 够 正确 地 解码 视频 。 首 先 取 出 H264 
队列 中 的 视频 帧 ， 并 且 取 出 时 间 惟 更 新 视频 流 封 装 到 的 时 间 ， 以 便于 
Mux 模 块 的 主体 流程 可 以 判断 下 一 帧 应 该 编码 哪 一 路 流 ， 代 码 如 下 : 


VideoPacket *h264Packet = NULL 
fillH264PacketCcallback(&h264Packet, fillH264PacketContext); 
videoStreamTimeInSecs= h264Packet->timeMills / 1000.0; 


接 下 来 看 一 下 如 何 正 确 填 充 extradata， 从 H264 的 队列 中 取出 一 帧 
H264 的 视频 帧 数据 ， 因 为 在 7.4 节 中 已 将 SPS 和 PPS 的 信息 拼接 起 来 
了 ， 并 且 封 装 成 为 一 帧 H264 数 据 并 放 入 到 了 视频 帧 队列 中 了 ， 所 以 在 


取得 H264 帧 之 后 首先 判定 是 否 是 SPS 信 息 ， 判 断 规 则 是 取出 这 一 帧 
H264 数 据 的 index 为 4 的 下 标 ， 按 位 “与 "上 0x1F 得 到 NALU Type， 然 后 
与 H264 中 预定 义 的 类 型 进行 比较 ， 代 码 如 下 : 


Uint8_t* outputData = (uint8_t *) ((h264Packet)->buffer); 
int nalu_type = (outputData[4] & Ox1F); 


， 人 Type 的 类 型 定义 ， 笔 者 找 了 几 个 比较 重要 的 类 型 展示 
1 用 本 


#define H264_NALU_TYPE_NON_IDR_PICTURE 1 
#define H264_NALU_TYPE_IDR_PICTURE 

#define H264_ NALU_TYPE_ SEQUENCE PARAMETER_SET 
#define H264_NALU_TYPE_PICTURE PARAMETER_SET 
#define H264_NALU_TYPE_SEI 


OO 0 ~ JI 


所 以 ， 判 定 帧 类 型 是 不 是 SPS 类 型 即 判 定 nalu_type 是 不 是 等 于 7， 

如 果 相 等 的 话 ， 则 将 这 一 帧 H264 数 据 拆 分 成 SPS 和 PPS 信 息 ， 由 于 在 
7.4 节 中 已 经 料 SPS 和 PPS 拼 接 成 了 一 帧 放 入 到 了 视频 队列 之 中 。 拆 分 

过 程 的 代码 在 这 里 就 不 再 展示 了 ， 其 实 就 是 找 出 H264 的 StartCode， 即 
以 00 00 00 01 开 始 的 部 分 ， 第 一 个 就 是 SPS， 第 二 个 束 是 PPS。 把 SPS 
和 PPS 分 别 放 入 到 两 个 uint8 _t 的 数组 之 中 ， 一 个 是 spsFrame， 男 外 一 个 
是 ppsFrame， 并 且 这 个 数组 的 长 度 也 存放 到 了 对 应 的 变量 之 中 。 最 后 
将 spsFrame 和 ppsFrame 封 装 到 视频 编码 器 上 下 文 的 extradata 中 ， 代 码 如 
下 : 


AVCodecContext *c = videoStream->codec; 
int extradata len = 8 + spsFrameLen - 4+1+2 + ppsFrameLen - 4; 
->extradata = (uint8_t*) av_mallocz(extradata_ len); 


O 


c->extradata_size = extradata_len; 
c->extradata[0] = Ox01; 
c->extradata[1] = spsFrame[4 + 1]; 
c->extradata[2] = spsFrame[4 + 2]; 
c->extradata[3] = spsFrame[4 + 3]; 
c->extradata[4] = OxFC | 3; 


O 


->extradata[5] = 0XxEO | 1; 
int tmp = spsFrameLen - 4; 
c->extradata[6] = (tmp >> 8) & OxOOff; 
c->extradata[7] = tmp & OxQOOff,; 
int i = 0; 
for (i = 0; i < tmp; i++) 
c->extradata[8 + i] = spsFrame[4 + i]; 
c->extradata[8 + tmp] = Ox01; 
int tmp2 = ppsFrameLen - 4; 


c->extradata[8 + tmp + 1] = (tmp2 >> 8) & 0x0gff， 
c->extradata[8 + tmp + 2] = tmp2 & OxQOOff; 
for (i = 0; i < tmp2; i++) 

c->extradata[8 + tmp + 3 + i] = ppsFrame[4 + i]; 


上 述 拼 接 规 则 是 笔者 在 FFmpeg 的 源码 中 提取 出 来 的 (源码 在 
libavformat 目 隶 中 ，avc.c 这 个 文件 里 面 的 方法 ff_isom_write_avcc 
中 ) ， 分 为 以 下 几 个 部 分 : 第 一 部 分 是 元 数据 部 分 ， 即 下 标 从 0 到 5， 
代表 了 version、profile、profile compat、level 以 及 两 个 保留 位 ， 第 二 部 
分 是 SPS， 包 括 SPS 的 大 小 以 及 SPS 的 内 部 信息 ; 第 三 部 分 是 PPS， 首 
先是 PPS 的 数目 ， 然 后 是 PPS 的 大 小 和 PPS 的 内 部 信息 。 这 个 拼接 规则 
比较 重要 ， 请 读者 深刻 理解 一 下 ， 在 后 续 使 用 硬件 解码 絮 加 速 视频 播 
放 絮 的 项 目 中 ， 还 会 用 到 这 个 拼接 规则 ， 只 不 过 是 通过 extradata 解 析 
出 SPS 和 PPS 的 信息 。 封 装 好 视频 流 编码 器 的 extradata 之 后 ， 才 表示 这 
个 Container 完 全 封装 好 了 ， 在 这 里 必须 调用 write_header 方 法 ， 将 这 些 
MetaData 写 出 到 文件 或 者 网 络 流 中 ， 代 码 如 下 : 


int ret = avformat_write_header(oc, NULL); 
if (ret >= 0) 

isWriteHeaderSuccess = true; 
} 


当 write header 成 功 之 时 ， 将 变量 isWriteHeaderSuccess 设 置 为 true， 
以 方便 后 续 在 实现 销毁 操作 时 可 以 用 来 判断 是 否 需要 执行 write trailer 
的 操作 。 


接 下 来 整 古 真正 地 封 洲 并且 输出 视频 巾 了 ， 最 重要 的 是 视频 帧 的 
封 流 ， 即 把 从 H264 队 列 中 取出 来 的 H264 数 据 封 狠 成 FFmpeg 认 识 的 
AVPacket， 封 痛 中 最 重要 的 一 步 类 似 于 音频 里 的 格式 转换 ， 即 在 音频 
的 封 疼 过 程 中 使 用 ADTS 到 ASC 的 转换 过 庆历 ， 而 这 里 是 没有 这 样 的 
转换 过 滤 右 可 以 使 用 的 ， 所 以 需要 做 手动 转换 ， 这 个 转换 过 程 也 很 位 
单 ， 把 H264 视 频 帧 起 始 的 StartCode 部 分 准 换 为 这 一 帆 视 频 巾 的 大 小 即 
可 ， 当 然 大 小 不 包括 这 个 StartCode 部 分 ， 代 码 如 下 : 


pkt.data = outputData,; 
if(pkt.data[0] == Ox00 && pkt.data[1] == Ox00 && 
pkt.data[2] == Ox00 && pkt.data[3] == Ox01){ 
bufferSize -= 4; 
pkt.data[0] = ((bufferSize) >> 24) & OxQOOff; 
pkt.data[1] = ((bufferSize) >> 16) & OxQOOff; 
pkt.data[2] = ((bufferSize) >> 8) & 0x00ff ， 


pkt.data[3] = ((bufferSize)) & 0x00fTf ， 


如 上 述 代 码 所 示 ， 代 表 帧 大 小 的 这 个 bufferSize 的 字 布 顺序 是 很 重 
要 的 ， 必 须 按照 代码 中 的 大 尾 端 (big endian) 字 贡 序 进 行 拼 接 才 可 
以 。 接 下 来 就 是 将 该 AVPacket 的 size 设 置 为 bufferSize， 将 pts 和 dts 设 置 
为 从 H264 队 列 中 取出 来 的 pts 和 dts， 此 外 还 需要 将 视频 编码 器 上 下 文 
的 frame_number 加 1， 代 表 又 增加 了 一 帧 视频 帧 ， 最 后 还 有 一 个 对 于 
AVPacket 来 说 非常 重要 的 属性 一 一 flags， 即 标识 这 个 视频 帧 是 否 是 关 
键 帧 ， 那 么 应 该 如 何 来 确定 取出 来 的 这 一 帧 H264 视 频 帧 是 否 是 关键 帧 
呢 ? 还 是 得 回 到 上 面 判断 NALU Type 的 地 方 ， 如 果 NALU Type 不 是 
SPS， 则 判断 其 是 否 是 关键 帧 ， 即 nalu_type 是 否 等 于 5; 如 果 是 关键 
帧 ， 则 将 flags 设 置 为 1， 可 以 使 用 FFmpeg 中 定义 的 安 
AV_PKT FLAG_KEY; 如 果 不 是 关键 帆 则 设置 为 0， 因 为 解码 器 要 按 
照 是 否 是 关键 帧 来 构造 解码 过 程 中 的 参考 队列 。 至 此 我 们 的 封装 工 作 
本 下 来 惑 是 输出 部 分 ， 其 实 输 出 和 音频 流 的 输出 是 一 样 

9 各， 代码 如 下 : 


av_interleaved write frame(oc, &pkt); 


封装 和 输出 视频 帧 结束 之 后 ， 就 可 以 再 回 到 Mux 模 块 的 主体 流程 
了 ， 主 体 流程 会 不 断 地 进行 循环 ， 直 到 首 频 或 者 视频 的 封装 和 输出 函 
数 返 回 小 于 0 的 值 然后 结束 ， 但 是 何 时 返回 小 于 0 的 值 呢 ? 其 实 就 是 在 
获取 AAC 队 列 以 及 获取 H264 队 列 的 时 候 ， 如 果 这 个 队列 被 abort 掉 了 ， 
那么 就 返回 小 于 0 的 值 ， 那 么 这 两 个 队列 又 是 何 时 被 abort 挥 的 呢 ? 其 
实 束 是 在 集 止 整个 Mux 流 程 的 时 候 。 停 止 Mux 模 块 如 下 ， 首 先 会 abort 
掉 这 两 个 队列 ， 然 后 等 待 主 体 Mux 流 程 的 线程 停止 ， 之 后 调用 销毁 资 
源 的 方法 ， 销 毁 资 源 的 方法 将 在 7.5.3 节 进行 介绍 。 


对 于 销毁 资源 ， 首 先 要 做 的 是 判断 是 否 打 开 了 输出 通道 ， 并 且 确 
定 它 是 否 做 了 write-Header 的 操作 ， 如 果 做 了 的 话 ， 束 要 执行 
write_trailer 的 操作 ， 并 且 设 置 好 duration: 


if (isConnected && isWriteHeaderSuccess) { 
av_write_ trailer(oc); 
oc->duration = duration * AV_TIME_ BASE,; 
} 


这 里 有 一 点 比较 重要 ， 如 果 我 们 没有 write header 而 义 在 销毁 的 时 
候 调 用 了 write trailer， 那 么 FFmpeg 程 序 会 直接 般 吝 ， 所 以 这 里 使 用 了 
一 个 布尔 变量 来 保证 write header 和 write trailer 的 成 对 出 现 。 由 于 Mux 
模块 不 做 编码 工作 ， 所 以 没有 打开 过 任何 编码 右 ， 也 就 无 需 天 闭 编 码 
右 ， 但 是 对 于 音频 来 讲 ， 还 使 用 了 一 个 bitStreamFilter， 所 以 需要 天 
闭 : 


av_bitstream filter_close(bsfc); 


最 后 关闭 输出 通道 ， 并 释放 整个 AVFormatContext: 


if (isConnected) { 
avio_close(oc->pb); 
isConnected = false; 


} 
avformat_free_context(oc); 


操作 完 如 上 流程 ， 束 完成 了 销毁 资源 的 操作 。 


7.6 ”中 控 系 统 串 联 起 各 个 模块 


最 终 我 们 来 写 一 个 控制 右 ， 将 所 有 的 模块 都 昌 联 起 来 ， 从 而 完成 
整个 项 目 。 一 旦 进入 录制 视频 页 面 ， 束 已 经 有 了 视频 的 预览 界面 ， 即 
已 经 启动 了 7.47 的 视频 采集 模块 ， 只 不 过 我 们 不 会 司 动 编码 线程 进行 
编码 ， 然 后 ， 在 控制 妖 中 初始 化 H264 视 频 队 列 和 PCM 的 音频 队列 ， 并 
调用 7.5 世 的 Mux 模 块 的 初始 化 方法 。 如 果 初 始 化 成 功 了 的 话 (因为 有 
可 能 涉及 输出 通道 建立 不 成 功 的 情况 ， 所 以 和 多 初始 化 Mux 模 块 ， 再 初 
台 化 编码 模块 ) ， 则 应 该 在 启动 音频 的 采集 以 及 编码 模块 之 后 ， 再 局 
动 视频 的 采集 以 及 编码 模块 ， 但 是 如 采 初 始 化 失败 的 话 ， 则 销毁 H264 
视频 队列 和 PCM 音 频 队 列 。 代 码 如 下 : 


PacketPool* packetPool = PacketPool: :GetInstance()， 
packetPool->initRecordingVideoPacketQueue(); 
packetPool->initAudioPacketQueue(audioSampleRate); 
packetPool->initAudioPacketQueue( ); 
videoPacketConsumerThread = new VideoPacketCconsumerThread ( ) ; 
int initCode = VideoPacketCconsumerThread->init(videoPath， 
videowidth, videoheight, videoFrameRate, videoBitRate, 
audioSampleRate,audioChannels, audioBitRate, 
"libfdk_aac"); 
if(initCode >= 0){ 
videoPacketConsumerThread->startAsync( ) ; 
// Start Producer 
} elsef{ 
packetPool->destoryRecordingVideoPacketQueue(); 
packetPool->destoryAudioPacketQueue( ); 
packetPool->destoryAudioPacketQueue( ); 
} 


如 果 初 始 化 成 功 ， 则 局 动 音频 的 采集 以 及 编码 模块 。 首 先 局 动 7.2 
世 的 音频 采集 模块 ， 然 后 局 动 7.3 下 的 音频 编码 线程 ， 接 着 局 动 7.4 世 中 
Re 


audioRecorder->start(); 
audioEncoder->start(); 
VideoScheduler->startEncoding() ， 


此 时 我 们 可 以 看 到 ， 音 频 采 集 线 程 将 声音 不 断 地 采集 到 了 PCM 队 
列 之 中 ， 音 频 编码 线程 不 断 地 从 PCM 队 列 中 取出 数据 并 进行 编码 ， 将 


编码 之 后 的 AAC 数 据 送 入 到 AAC 队 列 之 中 ;同时 可 以 看 到 ， 视 频 采 集 
线程 不 断 地 将 预 宽 画面 采集 下 来 ， 然 后 发 送 给 视频 编码 线程 进行 编 
人 码 ， 最 终 编码 为 H264 数 据 并 传 入 到 H264 的 队列 之 中 ;而 最 开始 启动 的 
Mux 模 块 ， 会 不 断 地 从 这 两 个 队列 (AAC 队 列 与 H264 队 列 ) 中 取出 
AAC 的 音频 帧 和 H264 的 视频 帧 ， 然 后 封装 到 MP4 的 Container 中 ， 最 终 
输出 到 本 地 和 磁盘 的 文件 中 。 


当 集 止 隶 制 的 上 时候， 首先 会 停止 生产 阁 部 分 ， 即 停止 视频 的 编 
码 ， 然 后 停止 音频 的 编码 ， 接 下 来 停止 音频 的 采集 ， 最 后 停止 Mux 模 
块 ， 这 样 整个 好 制 过 程 就 结束 了 ， 代 码 如 下 : 


videoSscheduler->stopEncoding(); 
audioEncoder->stop(); 
audioRecorder->stop(); 
videoPacketConsumerThread->stop(); 


这 个 中 探 系统 束 是 如 此 人 简单， 读者 可 以 体会 一 下 一 个 复杂 的 系统 
经 过 优秀 的 设计 ， 也 会 变 得 简单 起 来 ， 所 以 笔者 建议 读者 在 日 音 的 开 
发 中 可 以 采取 设计 先行 的 开发 模式 ， 等 设计 出 来 之 后 ， 找 对 应 的 开发 
人 员 做 一 个 设计 评审 会 ， 这 样 会 较 早 骏 露 出 问题 ， 节 终 可 以 提高 整个 
开发 过 程 的 效率 。 


7.7 本 章 小 结 


最 终 我 们 终于 完成 了 整个 项 目 。 局 动 该 程序 之 后 ， 点 击 孙 制 按 
钮 ， 进 入 预 友 界面， 我 们 可 以 导 找 一 个 合适 的 画面 ， 选 择 开 始 孙 制 ， 
大 家 可 以 和 完 做 个 目 我 介绍 ， 然 后 选择 一 个 伴奏 ， 唱 一 首 歌 曲 ， 然 后 点 
击 集 止 录制 ， 最 终 导出 我 们 生成 的 MP4 文 件 ， 播 放 这 个 MP4 文 件 ， 就 
可 以 看 到 我 们 刚才 的 表 党 了 。 在 播放 这 个 MP4 文 件 的 时 候 ， 有 的 读者 
可 能 会 发 现 以 下 儿 个 问题 : 

为 什么 我 的 声音 听 起 来 特别 干 ， 能 不 能 给 修饰 一 下 呢 ? 

为 什么 我 脸 上 的 沽 瘟 好 明显 啊 ， 能 不 能 做 个 美 颜 呢 ? 

是 的 ， 这 也 是 后 续 章 市 的 重点 内 容 ， 我 们 会 将 声音 进行 美化 ， 将 
视频 进行 美化 ， 等 下 一 个 篇 幅 结束 之 后 ， 再 运行 最 新 的 项 目 生 成 新 的 


视频 ， 到 那 时 再 来 观看 这 个 视频 的 时 候 ， 你 就 会 发 现 ， 这 个 视频 中 有 
一 个 更 加 漂亮 (帅气 ) 的 你 ， 声 音 也 会 更 加 动听 。 


第 8 草 ” 首 频 效 末 器 的 介绍 与 实践 


前 7 革 不 仅 介 绍 了 首 视 频 的 基础 概念 ， 还 在 Android 和 iOS 平 人 台 上 完 
成 了 两 个 比较 完整 的 应 用 ， 一 个 十 视频 播放 右 的 应 用 ， 一 个 是 视频 录 
制 应 用 ， 因 此 可 以 把 前 7 革 称 为 基础 篇 或 入 门 篇 。 从 现在 开始 ， 将 介绍 
一 个 新 的 篇 章 一 一 提高 骗 ， 这 部 分 内 容 塞 在 为 基础 篇 中 的 两 个 应 用 添 
加 一 些 必 要 的 功能 〈 比 如 添加 音频 滤 镜 、 视 频 滤 镜 ) ， 做 一 些 性 能 优 
化 【比如 硬件 解码 器 的 使 用 ) ， 实 现 一 些 公共 基础 库 的 抽象 与 构建 
(音频 处 理 、 视 频 处 理 的 公共 库 ) 等 。 


我 们 已 在 第 1 章 介绍 过 一 些 音频 育 景 及 其 相关 知识 ， 本 章 会 在 此 基 
础 上 进行 更 加 深入 的 讲解 。 此 外 ， 本 章 还 会 介绍 一 些 基 本 的 乐理 知 
识 。 让 我 们 开始 吧 ! 


第 1 章 已 经 介绍 了 音频 的 模拟 信号 与 数字 信和 号 的 概念 ， 而 本 章 介绍 
的 内 容 都 属于 数字 首 频 ， 所 以 本 市 会 以 更 加 直观 的 方式 来 讲解 数字 首 
频 。 在 开始 本 市 之 前 建议 读者 先 下 载 一 个 音频 编辑 工具 ， 如 
Audacity、Audition、Cubase 等 ， 其 中 Audacity 在 我 们 的 资源 目录 中 提 
供 了 一 个 Mac 版 本 的 安 闻 文 件 ， 如 果 读 者 使 用 的 是 Mac OS 环境 ， 则 可 
以 直接 安装 。 由 于 本 章 执 行 的 很 多 操作 都 基于 Audacity 工 具 的 ， 所 以 
先 人 简单 介绍 Audacity。Audacity 是 一 个 集 播放 、 编 辑 、 转 码 为 一 体 的 工 
具 软 件 ， 也 是 日 常 工 作 中 必 不 可 少 的 一 个 工具 。 大 家 可 以 在 本 草 人 资源 
目录 中 找到 对 应 的 音频 文件 pass.wav 并 将 其 放 到 Audacity 中 ， 完 成 操作 
后 ， 直 授 映 入 眼 窗 的 束 是 下 面 要 介绍 的 首 频 的 第 一 种 表示 形式 ， 即 波 
形 图 的 表示 。 


8.1.1 波形 图 


声音 最 直接 的 表示 束 是 波形 图 ， 英 文 叫 waveform。 横 轴 是 时 间 ， 
纵 轴 根据 意义 的 不 同 而 有 多 种 不 同 的 格式 ， 如 有 用 dB 表示 的 、 有 用 相 
对 值 表示 的 等 ， 但 是 可 忌 体 理解 为 强度 的 大 小 。 下 面 完 看 看 当 笔者 读 
出 pass[pq: sj 这 个 单词 时 所 产生 的 波形 图 ， 如 图 8-1 所 示 。 
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图 8-1 


当 模 轴 的 分 辨 率 不 够 高 时 ， 波 形 图 看 起 来 就 像 图 8-1 一 样 。 如 果 不 
是 一 个 单词 ， 而 是 一 段 话 ， 其 波形 图 就 会 由 多 个 这 样 的 波形 连接 起 
来 ， 而 所 有 波形 的 轮廓 可 以 称 为 整个 声音 在 时 域 上 的 包 络 
(envelope) ， 包 络 整体 形状 描述 了 声音 在 整个 时 间 范 围 内 的 响 度 。 一 
般 来 说 ， 每 一 个 音节 对 应 一 个 这 样 的 三 角形 ， 因 为 每 一 个 音节 通常 都 
会 包含 一 个 元 音 ， 而 元 音 听 起 来 比 辅音 更 响亮 〈 如 图 8-1 中 的 0.05 一 
0.18s) 。 但 是 也 有 例外 ， 比 如 ， 类 似 /s/ 的 唇齿 音 持 续 时 间 比 较 长 ， 也 
会 形成 一 个 比较 长 的 三 角形 〈 如 图 8-1 中 的 0.18~0.4s) ; 类 似 /p/ 的 爆破 
音 会 在 瞬时 聚集 大 量 能 量 ， 在 波形 上 体现 为 一 个 脉冲 (如 图 8-1 中 的 
0.02 一 0.05s) 。 如 有 果 提 高 模 轴 时 间 单 位 的 分 辩 率 ， 比 如 只 观察 20ms 的 
波形 ， 则 可 以 看 到 波形 图 更 精细 的 结构 ， 如 图 8-2 所 示 。 


0.080 0.085 0.090 0.095 0.100 0.200 0.205 0.210 0.215 0.220 


图 8-2 


图 8-2 左 边 的 图 就 是 放大 了 0.08~0.10s 部 分 的 波形 图 情况 ， 这 部 分 
征 元 音 ， 我 们 也 可 以 注意 到 这 个 波形 是 有 周期 性 的 ， 大 约 为 3 个 周期 多 
一 点 (每 个 周期 约 为 7ms) ， 这 也 是 所 有 浊音 在 时 域 上 的 特性 。 而 图 8- 
2 右边 的 图 就 是 放大 了 0.2~0.22s 部 分 的 波形 图 情况 ， 这 部 分 是 清音 ， 
是 没有 任何 周期 性 的 ， 并 且 频 率 〈 过 零 率 ， 即 在 横 轴 精度 一 致 情况 下 
的 波形 的 臣 密 程度 ) 比 元 音 高 很 多 。 


以 上 介绍 的 特性 我 们 都 可 从 波形 图 上 直观 看 出 来 。 我 们 知道 ， 波 
形 图 表示 的 就 是 随 着 时 间 的 推移 声音 强度 变化 的 曲线 ， 是 最 直观 也 是 
最 容易 理解 的 一 种 声音 的 表示 形式 ， 也 就 是 通常 所 说 的 声音 的 时 域 表 
示 。 介 绍 完 声 音 的 时 域 表 示 ， 再 从 另外 一 个 维度 介绍 声音 是 如 何 表 现 
的 ， 也 就 是 它 的 频 域 表示 声音 的 频谱 (Spectrum) 图 的 表示 。 


8.1.2 ”频谱 图 


使 用 图 8-1 中 0.08 一 0.11s 的 这 一 段 声音 来 做 FFT， 得 到 的 频谱 展示 
图 如 图 8-3 所 示 。 


-24dB 
-30dB 
-36dB 
-42dB 
-48dB 
—54dB 
-60dB 
-66dB 
-72dB 
-78dB 
-84dB 


-90dB 
1 000Hz 3 000Hz 3 000Hz 7 000Hz 10 000Hz 15 000Hz 20 000Hz 


图 8-3 


在 解释 频谱 图 之 前 先 理 解 什么 是 FFT。FFT 是 离散 伟 立 叶 变换 的 快 
速算 法 ， 它 可 以 将 一 个 时 域 信号 变换 为 频 域 表示 的 信号 ， 有 些 信号 在 
时 域 上 很 难看 出 是 什么 特征 的 ， 但 是 ， 如 果 变 换 到 频 域 之 后 ， 就 很 容 
易 看 出 了 ， 这 就 是 很 多 信号 分 析 采 用 FFT 变 换 的 原因 。 因 此 ， 我 们 将 一 
小 段 波形 做 FFT 之 后 取 模 ， 注 意 这 里 必须 是 一 小 段 波 形 〈 一 般 是 20~ 
50ms) ， 如 果 这 段 波 形 表示 的 时 间 太 长 ， 就 没有 意义 了 。 对 音频 信和 号 
做 FFT 的 时 候 ， 是 把 虚 部 设置 为 0， 所 得 到 的 FFT 的 结果 是 对 称 的 ， 即 
音频 采样 频率 为 44100， 那 么 0~22050 的 频率 分 布 和 22050~-44100 的 频 
率 分 布 是 一 致 的 。 下 面 基 于 此 来 理解 图 8-3， 横 轴 频 率 的 表示 范围 为 0~- 
22050， 而 纵 轴 表示 的 就 是 当前 频率 能 量 的 大 小 ， 我 们 能 直接 看 到 的 就 
是 频 域 的 包 络 ， 如 果 把 横 轴 表示 的 单位 改 为 指数 级 ( 即 把 分 布 比 较 密 
集 的 地 方 使 用 更 加 精细 的 单位 来 表示 ) ， 就 可 以 显示 出 频 域 上 能 量 分 
布 的 精细 结构 。 图 8-4 表 示 频 域 分 布 的 精细 结构 。 
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图 8-4 


从 图 8-4 中 可 以 看 出 ， 每 隔 170Hz 就 会 出 现 一 个 峰 ， 而 这 恰恰 是 我 
们 在 图 8-2 左 边 的 图 中 所 看 到 的 波形 周期 ( 约 为 6ms) 所 对 应 的 频率 。 
从 图 8-4 中 还 可 以 看 出 语音 不 是 一 个 单独 的 频率 信号 ， 而 是 由 许多 频率 
的 信号 经 过 人 简 谐 振动 县 加 而 成 的 。 图 8-4 中 的 每 一 个 峰 叫 做 共振 峰 ， 人 第 
一 个 峰 叫 基 音 ， 其 余 的 峰 叫 泛音 ， 第 一 个 峰 的 频率 (也 是 相 邻 峰 的 间 
隔 ) 叫做 基 频 (fundamental frequency) ， 也 叫 音 高 (pitch) ， 常 记 为 
f0。 对 于 人 声 来 讲 ， 声 带 发 声 之 后 会 经 过 我 们 的 口腔 、 颅 腔 等 进行 反 
射 ， 最 终 让 别人 听 到 ， 但 是 这 里 基 频 指 的 束 是 声带 发 出 的 最 原始 的 声 
音 所 代表 的 频率 。 因 此 ， 如 果 声 带 不 发 出 声音 ， 比 如 层 齿 音 (/z//c//s/ 
等 ) 一 般 就 无 法 检测 出 基 频 。 


图 8-4 的 频谱 图 有 很 多 峰 ， 每 个 峰 的 高 度 不 一 样 ， 这 些 峰 的 高 度 之 
比 决定 其 音色 (timbre) 。 但 对 于 语音 的 音色 来 说 ， 一 般 没 有 必要 精确 
描写 每 个 峰 的 高 度 ， 而 是 用 “共振 峰 ” (formant) 来 描述 的 。 共 振 峰 指 
的 是 包 络 的 峰 ， 从 图 8-4 可 以 看 到 ， 第 一 个 共振 峰 的 频率 170Hz， 第 二 
个 共振 峰 的 频率 为 340Hz， 第 三 个 共振 峰 的 频率 为 510Hz， 第 四 个 共振 
峰 的 频率 为 680Hz， 第 五 个 共振 峰 的 频率 为 850Hz， 第 六 个 共振 峰 的 频 
率 为 1020Hz， 越 往 后 共振 峰 的 频率 越 弱 ， 所 以 一 般 由 前 几 个 共振 峰 的 
人 

泵 。 
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图 8-5 


从 图 8-5 可 以 发 现 ， 在 低频 率 部 分 几乎 没有 峰 (1000Hz 处 由 于 能 量 
太 小 ， 可 以 忽略 ) ， 第 一 个 峰值 出 现在 5000Hz 以 上 ， 这 种 情况 下 也 就 
无 法 计算 基 频 ， 如 果 对 应 于 人 的 发 声 部 位 ， 那 惑 是 我 们 的 声带 不 发 
声 ， 这 一 般 称 为 清音 。 清 音 通常 没有 共振 峰 ， 也 束 没 有 基 频 和 没有 音 


出 oO 
上 面 的 频谱 图 只 能 表示 一 小 段 声音 ， 而 如 果 我 们 想 观 察 一 整 段 语 


音信 号 的 频 域 特性 ， 应 该 怎么 做 ? 这 将 涉及 下 一 节 介绍 的 语 谱 图 ， 我 
们 在 第 3 章 中 讲解 ftplay 时 在 显示 面板 上 绘制 的 就 是 语 谱 图 。 


-90dB 


8.1.3” 语 谱 图 


我 们 可 以 把 一 整 段 语 音信 号 截 成 许多 帧 ， 并 将 它们 各 自 的 频 
谱 “ 竖 ”起 来 〈 即 用 纵 轴 表示 频率 ) ， 用 颜色 的 深浅 来 代替 当前 频率 下 
的 能 量 强度 ， 再 将 所 有 帧 的 频谱 横向 并 排 起 来 ( 即 用 横 轴 表示 时 
间 ) ， 束 得 到 了 语 谱 图 ， 可 以 用 声音 的 时 频 域 表示 。 语 谱 图 可 以 理解 
为 一 个 三 维 的 概念 ， 即 横 轴 为 x 轴 ， 表 示 时 间 ; 纵 轴 为 y 轴 ， 表 示 频 
率 ; 以 及 一 个 z 轴 ， 表 示 当 前 时 间 点 ， 当 前 频率 所 代表 的 能 量 值 (能 量 
值 越 大 ， 颜 色 越 深 ) 。 使 用 Audacity 软 件 打 开 pass.wav 之 后 ， 在 这 一 轨 
声音 的 左 侧 选择 频谱 图 (在 Audacity 中 语 谱 图 称 为 频谱 图 ) 的 视图 模 
式 ， 得 到 这 段 声音 的 语 谱 图 ， 如 图 8-6 所 示 。 
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图 8-6 

在 图 8-6 中 ， 横 轴 是 时 间 ， 纵 轴 是 频率 ， 颜 色 越 深 的 地 方 代表 声音 
的 能 量 越 大 。 所 以 从 图 8-1 的 波形 图 可 以 看 到 ，0.0~0.05s 是 在 /p/ 这 个 爆 
破 音 的 时 候 ， 其 频率 基本 上 都 在 1000Hz 以 下 ; 而 到 0.05~-0.15s， 元 音 / 
q: /的 频率 就 非常 明显 ， 并 且 颜 色 已 经 非常 深 是 可 以 计算 出 基 频 
的 。 随 着 时 间 的 推移 ， 到 0.2s 以 后 的 /s/， 其 频率 基本 上 都 在 5000Hz 以 
上 ， 这 一 段 声音 是 无 法 计算 基 频 的 ， 属 于 清音 部 分 。 语 谱 图 的 好 处 是 
可 以 直观 地 看 出 共振 峰 频 率 的 变化 。 


下 面 再 介绍 一 下 清音 和 剖 首 ， 因 为 这 对 于 后 续 在 基 频 检测 以 及 对 
频 域 数据 进行 处 理 时 会 有 很 大 帮助 。 在 语音 学 中 ， 将 发 音 时 声带 振动 
的 音 称 为 浊音 ， 将 发 音 时 声 训 不 振动 的 音 称 为 清音 。 辅 音 有 请 有 当 ， 
也 就 是 大 家 篆 说 的 清 辅音 、 浊 辅音 。 而 在 大 多 数 语言 中 ， 元 音 篆 为 浊 
音 ， 虹 音 、 半 元 音 也 是 独 音 。 我 们 可 以 舞 试 发 出 /a/ 这 个 音 ， 同 时 用 手 
触摸 喉 部 ， 可 以 感觉 吃 哆 是 振动 的 ， 而 发 出 b/p/、dt、8&k/ 等 音 的 时 候 


喉 哆 是 不 振动 的 ， 这 些 音 都 是 清 辅 音 。 还 有 一 种 是 鼻音 ， 
如 /m/、/n/ 人 、 几 等 都 征 浊 和 辅音 。 清音 无 法 检测 出 基 频 ， 因 此 也 吏 无 法 知 
道 它 所 代表 的 音 高 ; 浊音 一 般 可 以 检测 出 基 频 ， 所 以 可 以 计算 出 它 表 


示 的 音 高 。 


8.1.4 深入 理解 时 域 与 频 域 


通过 前 面 的 介绍 ， 读 者 应 该 已 经 比较 清楚 声音 在 时 域 和 频 域 上 的 
表示 。 但 是 ， 也 许 有 些 读者 可 能 还 是 不 太 清 径 声音 的 波形 是 如 何 产生 
的 ， 又 是 如 何 跟 频 域 联系 起 来 的 。 下 面 先 来 生成 一 段 单一 频率 的 声 
音 ， 然 后 逐步 琶 加 不 同 频率 的 声音 ， 以 此 作为 我 们 的 声 源 ， 从 而 逐步 
分 析 快 速 侍 里 叶 变 换 (FFT) 能 为 我 们 做 什么 。 


首先 编写 一 个 函数 来 生成 频率 为 440Hz， 单 声 道 ， 采 样 频率 为 
ee (注意 采样 频率 代表 的 波形 的 平滑 程度 ) ， 时 长 为 5s 的 声音 ， 
人 码 如 下 : 


double sample_rate = 44100.0; 
double duration = 5.0; 
int nb_samples = Sample_rate * duration; 
short* samples = new short[nb_samples]; 
double tincr =2 * M PI * 440.0 / sample _rate; 
double angle = 0; 
short* tempSamples = samples; 
for (int i = 0; i < nb_samples; i++) { 
float amplitude = sin(angle); 
*tempSamples = (int)(amplitude * 32767); 
tempSamples += 1; 
angle += tincr; 
} 
// Write To PCM File 
delete[] samples,; 


从 以 上 代码 中 可 以 看 到 ， 生 成 的 束 是 一 个 相位 为 零 的 正弦 波 ， 使 
用 Audacity 软 件 将 生成 的 PCM 文 件 以 裸 数 据 (raw data) 的 方式 导入 ， 
放大 横 轴 的 刻度 可 以 看 到 波形 图 ， 如 图 8-7 所 示 。 
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图 8-7 


从 图 8-7 中 可 以 看 出 ， 时 间 为 0 的 地 方正 处 于 正弦 波幅 度 为 0 的 地 
方 ， 所 以 相位 为 0。 从 图 中 还 可 以 看 出 ， 一 个 周期 大 约 为 2.27ms， 这 也 
正好 代表 了 生成 的 这 段 声音 的 频率 为 440Hz。 也 许 读 者 可 能 会 问 ， 那 采 
样 频率 在 波形 图 中 又 代表 什么 ? 采样 频率 在 波形 图 中 代表 整个 波形 的 
平滑 程度 ， 采 样 点 越 多 ， 波 形 就 越 平 消 。 紧 接着 选中 20ms 的 首 频 来 做 
传 里 叶 变 换 得 到 的 频谱 图 ， 如 图 8-8 所 示 。 


从 图 8-8 这 个 频谱 图 中 可 以 看 到 ， 波 峰 束 是 440Hz。 可见 ， 健 里 叶 
变化 之 后 我 们 得 到 了 这 个 波形 在 频 域 上 的 表示 ， 并 且 是 正确 的 。 但 是 
在 日 党 生活 中 我 们 所 听 到 的 声音 永远 不 会 只 是 一 个 单调 的 正 纺 波 ， 而 
是 由 很 多 波 革 加 而 成 的 。 因 此 ， 稍 微 改动 生 成 波形 的 代码 来 生成 一 个 
更 加 复杂 的 声音 ， 仅 需 修改 生成 幅度 的 那 一 行 代 码 ， 如 下 : 


float amplitude = (sin(angle) + sin(angle * 2 + M_PI / 3) + 
sin(angle * 3 + M PI / 2) + sin(angle * 4 + M_PI / 4)) 
* 0.25; 


以 上 代码 中 使 用 了 四 个 正弦 波 合 加， 并 且 每 个 正弦 波 部 有 目 己 的 
相位 ， 相 位 是 随机 给 的 。 为 什么 后 面 乘 以 0.25， 是 因为 后 续 要 将 这 个 值 
再 转换 为 SInt16 表 示 的 值 ， 所 以 将 其 转换 为 -1~+1 的 范围 内 。 使 用 
a 0 
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从 图 8-9 可 以 看 到 ， 没 有 一 个 单一 的 正弦 波 〈 见 图 8-7) 看 起 来 那么 
规范 ， 显 然 这 是 由 很 多 个 波 倒 加 而 成 的 ， 并 且 不 同 的 波 还 有 目 己 的 相 

位 ， 因 为 在 时 间 为 0 的 时 候 ， 能 量 不 是 从 0 开始 的 。 再 观察 图 8-9， 还 可 
以 看 出 它 只 有 周期 特性 ， 每 个 周期 约 为 2.25ms。 当 然 也 可 以 由 以 上 代 

码 看 出 ， 最 主要 的 频率 还 是 440Hz 所 产生 的 正弦 波 频率 ， 所 以 选中 20ms 
的 波形 图 来 观察 它 的 频谱 图 ， 如 图 8-10 所 示 。 


在 图 8-10 中 ， 第 一 个 波峰 在 440Hz 处 ， 第 二 个 波峰 在 880Hz 处 ， 
三 个 波峰 在 1320Hz 处 ， 第 四 个 波峰 在 1760Hz 处 ， 由 此 可 见 ， 2 
类 似 于 人 所 发 出 的 非 清 音 的 频谱 图 ， 该 频谱 图 的 基 频 就 是 440Hz 。 
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图 8-10 
上 面 介绍 了 这 么 多 波形 图 和 频谱 图 ， 读 者 应 该 已 经 比较 熟悉 声音 
在 时 域 上 的 表示 ， 以 及 时 域 和 频 域 的 转换 了 “。 下 面 笔者 会 带领 大 家 将 


声 普 的 时 域 信号 转换 为 频 域 信和 号， 然后 提取 特征 并 做 一 些 操 作 ， 让 我 
们 开始 吧 ! 


8.2 ”数字 音频 处 理 : 快速 传 里 叶 变换 


本 节 介 绍 数字 音频 的 处 理 ， 由 8.1 节 介绍 的 内 容 可 知 ， 声 音 主 要 的 
表示 形式 就 古 时 域 和 频 域 的 表示 ， 而 首 频 处 理 整 是 针对 声音 分 别 在 时 
域 和 频 域 上 的 处 理 。 本 市 会 详细 介绍 如 何 从 时 域 和 频 域 方面 对 音频 做 
一 些 处 理 。 对 于 时 域 方面 的 处 理 比 较 位 单 ， 不 需要 额外 进行 转换 的 操 
作 ， 因 为 一 般 拿 到 的 音频 数据 就 是 时 域 表示 的 音频 数据 。 若 要 对 音频 
的 频 域 做 处 理 ， 那 么 需 将 拿 到 的 音频 数据 先 转 换 为 频 域 上 的 信和 号， 下 
进行 处 理 。 那 么 如 何 转换 为 频 域 上 的 信号 呢 ? 在 8.1 节 中 提 到 过 ， 使 用 
FFT， 即 使 用 传 里 时 变换 ， 所 以 下 面 先 学 习 传 里 叶 变 换 。 


离散 伟 里 时 变换 简称 为 DFT， 由 于 计算 速度 太 慢 ， 所 以 就 演变 出 
了 快速 傅 里 时 变换 ， 即 我 们 常 说 的 FFT， 在 处 理 音 频 的 过 程 中 常 使 用 
MayerFFT 来 实现 。 本 节 不 是 讨论 傅 里 时 变换 的 原理 以 及 公式 推导 ， 而 
是 讲解 FFT 的 物理 意义 、 如 何 使 用 FFT 将 时 域 信号 转换 为 频 域 信 号 ， 以 
及 如 何 利 用 逆 FFT 将 频 域 信号 重新 转换 为 时 域 信号 ， 同 时 在 iOS 平 台 会 
使 用 vDSP 来 提升 效率 ， 在 Android 平 台 的 armv7 的 CPU 架构 以 上 ， 会 使 
用 neon 指 令 集 加 速 来 提升 性 能 ， 这 样 的 安排 相信 会 使 读者 更 加 深入 地 
了 解 FFT， 还 可 以 迅速 地 将 优化 应 用 于 自己 的 日 常 工作 中 。 


1.FFT 的 物理 意义 


FFT 是 离散 传 里 叶 变 换 的 快速 算法 ， 可 以 将 一 个 时 域 信号 变换 为 
频 域 信号 。 有 些 信号 在 时 域 上 很 难看 出 是 什么 特征 的 ， 但 是 ， 如 采 变 
换 到 频 域 之 后 ， 殊 很 容易 看 出 其 特征 了 。 这 就 是 很 多 信号 分 析 (声音 
只 是 众多 信号 中 的 一 种 ) 采用 FFT 变 换 的 原因 。 虽 然 很 多 人 都 知道 FFT 
征 什 么 ， 可 以 用 来 做 什么 ， 以 及 怎么 去 做 ， 但 是 却 不 知道 做 FFT 变 换 
之 后 的 意义 ， 下 面 就 来 和 大 家 一 块 分 析 FFT 的 物理 意义 。 


声音 的 时 域 信号 可 以 直接 用 于 FFT 变 换 ， 假 如 NN 个 采样 点 经 过 FFT 
之 后 ， 就 可 以 得 到 N 个 点 的 FFT 结 果 ， 为 了 方便 进行 FFT 运 算 ， 通常 N 
的 取 值 为 2 的 整数 次 时， 如 512、1024、2048 等 。 根 据 采 样 定 理 ， 采 样 
频率 要 大 于 信号 频率 的 两 倍 ， 所 以 假设 采样 频率 为 Fs， 信 号 频率 为 F， 
采样 点 数 为 N， 那 么 执行 FFT 之 后 的 结果 就 是 N 个 点 的 复数 ， 每 个 复数 
可 分 为 实 部 a 和 虚 部 b 两 部 分 ， 表 示 为 : 


每 个 点 对 应 厦 一 个 频率 点 ， 而 这 个 点 的 复数 的 模 信 束 是 这 个 频率 
点 的 幅度 值 ， 可 以 计算 为 : 


amplitude = sqrt(a * a+b * b); 


每 个 复数 都 会 有 一 个 相位 ， 其 在 物理 意义 上 代表 的 就 是 这 个 周期 
的 波形 的 起 始 相 位 是 多 少 ， 相 位 的 计算 如 下 : 


phase = atan2(b, a); 


由 于 输入 的 是 声音 信号 ， 声 音信 号 在 时 域 上 表示 为 一 个 一 个 独立 
的 采样 点 ， 因 此 在 做 FFT 变 换 之 前 ， 要 先 将 其 变换 为 一 个 复数 ， 即 将 
时 域 上 某 一 个 点 的 值 作为 实 部 ， 虚 部 则 统一 设置 为 0， 由 于 所 有 输入 的 
虚 部 都 是 0， 因 此 导致 FFT 的 结果 是 对 称 的 ， 即 前 半 部 分 和 后 半 部 分 的 
结果 是 一 致 的 。 所 以 在 对 声音 信号 做 FFT 变 换 之 后 ， 只 要 使 用 前 半 部 
分 束 可 以 了 ， 因 为 后 半 部 分 古 对 称 的 ， 无 需 使 用 。 那 么 执行 FFT 得 到 
的 结果 与 真实 的 频率 有 什么 关系 呢 ? 


还 是 用 8.1.4 节 中 生成 音频 文件 的 代码 来 说 明 ， 利 用 以 下 公式 来 生 
成 一 段 采样 频率 为 44100Hz 的 音频 文件 : 


float amplitude = (sin(angle) + sin(angle * 2 + MPI /3) + 
sin(angle * 3 + M PI / 2) + sin(angle * 4 + M PI / 4)) 
* 0Q.25; 


拿 到 这 个 音频 文件 后 ， 先 去 做 一 个 FEFT， 具 体 如 何 操作 ， 这 里 暂 
不 讨论 。 先 把 FFT 的 计算 当做 一 个 类 金子， 给 它 输入 首 频 的 时 域 信 
号 ， 得 到 频 域 信号 。 由 于 这 个 首 频 文件 的 采样 频率 为 44100Hz， 做 FFT 
的 窗口 大 小 是 8192， 那 么 生成 FFT 结 果 的 第 一 个 点 的 频率 就 是 90Hz， 最 
后 一 个 点 的 频率 吏 是 44100Hz， 而 共有 8192 个 点 ， 所 以 相 邻 两 点 之 间 
表示 的 频率 差 值 如 下 : 


44100 / 8192 = 5.3833Hz 


这 就 是 我 们 通常 所 说 的 使 用 8192 作 为 窗口 大 小 来 给 采样 频率 
44100Hz 的 声音 样本 做 传 里 时 变换 ， 得 到 的 结果 分 辨 率 是 5.3833Hz 。 
接 下 来 ， 在 FFT 的 结果 数组 中 找 出 第 一 个 峰值 ( 即 第 一 个 最 大 的 
值 ) ， 可 以 发 现 是 Index 位 置 为 82 的 元 素 ， 计 算出 它 代 表 的 频率 ， 如 


5.3833 * 82 = 441.43Hz 


由 于 声音 源 是 由 4 个 波 释 加 而 成 的 ， 因 此 找到 的 第 一 个 峰值 是 频率 
最 低 的 峰值 ， 也 是 440Hz 所 代表 的 峰值 ， 那 为 什么 我 们 得 到 的 结果 是 
441.43Hz 呢 ? 这 就 是 前 面 所 说 的 分 辩 率 的 问题 ， 如 果 想 准确 地 算出 
440Hz， 就 要 增加 窗口 大 小 以 提高 频带 分 布 的 分 辩 率 ， 才 能 使 计算 出 
来 的 频率 更 加 准确 。 接 着 看 第 二 个 峰值 ， 它 是 在 Index 为 163 的 位 置 ， 
计算 出 它 代表 的 频率 ， 如 下 : 


5.3833 * 163 = 877.478Hz 


得 到 了 第 二 个 波峰 的 频率 信息 后 ， 接 着 可 以 计算 出 第 三 个 波 的 频 
率 为 5.3833x245=1319Hz， 第 四 个 波 的 频率 为 5.3833x327=1760.3Hz,， 
这 与 图 8-10 看 到 的 波峰 分 布 情况 是 一 致 的 。 每 个 点 的 峰值 以 及 相位 的 
计算 也 可 用 上 述 公 式 计 算出 来 ， 这 里 不 再 警 述 。 其 实 FFT 就 是 把 多 个 
波 琶 加 后 的 时 域 信 号 ， 可 以 按照 频率 将 各 个 波 拆 开 ， 进 行 更 清晰 的 展 
。 下 面 会 更 加 详细 讲解 如 何 做 FFT， 以 及 如 何在 移动 平台 上 进行 优 


2.MayerFFT 的 使 用 


在 C++ 语 言 中 进行 FFT 变 换 时 ， 最 第 使 用 的 就 是 MayerFFT 的 实 
现 ， 下 面 就 来 看 看 如 何 使 用 MayerFFT 将 音频 文件 进行 FFT 转 换 。 


先 下 载 一 个 MayerFFT 的 实现 ， 它 的 实现 虽然 比较 复杂 (这 里 不 做 
讨论 ) ， 但 是 已 经 比较 好 地 封装 在 一 个 类 中 ， 这 个 类 也 可 以 在 本 章 的 
代码 仓库 中 找到 ， 下 面 编写 一 个 类 文件 FFT-Routine 将 具体 的 实现 封装 
起 来 ， 然 后 提供 接口 给 外 界 调用 。 


构造 画 数 和 析 构 函数 的 代码 如 下 : 


FFTRoutine(int nfft ) ， 
~FFTRoutine() ， 


从 以 上 代码 中 可 以 看 到 ， 构 造 画 数 中 有 一 个 参数 nfft， 这 个 参数 代 
表 FFT 运 算 中 一 个 寄 口 的 大 小 ， 这 也 是 做 FFT 最 基本 的 设置 ， 为 避免 频 
繁 的 内 存 开 尽 和 释放 操作 ， 在 构造 函数 的 实现 中 ， 要 开辟 一 个 nfft 大 小 \ 
的 浮 点 类 型 的 数组 ， 以 供 做 FFT 运 算 时 使 用 ， 在 析 构 函数 中 销 驱 这 个 
浮 总 类 型 数组 。 接 下 来 看 看 从 时 域 信 号 到 频 域 信号 的 正 同 FFT 变 换 的 
接口 ， 代 码 如 下 : 


void fft_forward(float* input, float* output_re, float* output_im); 


”从 接口 中 也 可 以 看 出 ， 第 一 个 参数 是 输入 的 时 域 信号 ( 浮 点 类 型 
表示 ) ， 第 二 个 参数 和 第 三 个 参数 分 别 代 表 了 转换 为 频 域 信号 之 后 实 
部 和 虚 部 的 两 个 数组 ， 这 个 函数 的 具体 实现 如 下 。 


首先 要 将 输入 数据 复制 到 在 构造 函数 开 尽 的 数组 中 ， 人 然后 调用 
MayerFFT 进 行 FFT 变 换 : 


memcpy(m_fft_data, input, sizeof(float) * nfft ) ， 
MayerFFT: :mayer_realfft(nfft, n_fft_data); 


每 MayerFFT 执 行 完 时 域 到 频 域 转换 之 后 ， 实 部 和 虚 部 的 数据 也 已 
经 存放 到 n_fft_ data 中 了 ， 只 不 过 是 实 部 和 虚 部 是 对 称 存 储 的 ， 我 们 需 
和 
0， 代 人 码 如 下 : 


output_im[0] = 0; 

for(int i = 0; i < nfft / 2; i++) { 
output_re[i] = n_ fft_data[I]' 
output_im[i + 1] = n_fft_data[nfft-1-i]; 

} 


这 样 就 可 以 利用 开源 的 MayerFFT 做 了 声音 信号 的 时 域 到 频 域 的 转 
i 
雪 口 代 人 的 如 下 : 


void fft_inverse(float* input_re, float* input_ im, float* output ) 


从 接口 代码 中 可 以 看 到 ， 输 入 的 是 频 域 信 号 ， 分 为 实 部 和 虚 部 ， 
输出 的 十 时 域 信号 ， 即 一 个 浮 点 型 的 数组 。 来 看 一 下 具体 的 实现 ， 先 
0 虚 部 按照 MayerFFT 中 存储 复数 的 存储 格式 还 原 回 去 ， 

: 码 如 下 - 


int hnfft = nfft/2; 

for (int ti=0; ti<hnfft; ti++) { 
m_fft_data[ti] = input_re[ti]; 
m_fft_data[nfft-1-ti] = input_im[ti+1]; 


} 
m_fft_data[hnfft] = input_re[hnfft]; 


然后 调用 MayerFFT 进 行 朔 FFT 运算， 运算 之 后 的 结果 还 是 存储 到 
m_fft_data 这 个 浮 点 数组 中 ， 而 此 时 这 个 浮 点 数组 中 存储 的 就 是 时 域 信 
号 了 ， 最 终 ， 把 时 域 信号 拷贝 到 输出 参数 中 ， 代 码 如 下 : 


MayerFft: :mayer_realifft(nfft, m_ fft_data); 
memcpy(output, nfft_data, sizeof(float) * nfft); 


这 样 焉 可 以 将 频 域 信号 又 转换 回 时 域 信号 了 ， 这 种 送 FFT 运 算 会 
在 一 些 音频 处 理 中 有 特殊 的 作用 ， 比 如 变调 效果 右 (PitchShift) 中 就 
会 用 到 这 种 操作 。MayerFFT 的 运算 都 是 在 CPU 上 进行 计算 的 ， 跨 平台 
特性 可 以 做 得 比较 好 (因为 只 有 一 个 CPP 的 实现 文件 ) ， 但 是 性 能 是 
筷 的 瓶 贷 ， 而 在 移动 平台 上 最 需要 注意 的 束 是 性 能 问题 ， 所 以 在 下 面 
会 给 出 年 和 谷 个 平台 二 的 优化 处 理 * 


3.iOS 平 台 的 VDSP 加 有 速 


前 面 已 经 讲解 了 如 何 使 用 工具 类 MayerFFT 来 将 时 域 信号 的 音频 转 
换 为 频 域 的 表示 。 而 在 移动 平台 上 我 们 最 关心 的 加 是 效率 ， 所 以 下 面 
要 针对 移动 平台 上 给 出 相应 的 实现 优化 。 在 iOS 平 台 上 可 使 用 iOS 提 供 
给 开发 者 的 vDSP 来 执行 FFT 的 优化 控 作 。 苹 果 为 开发 者 提供 的 vDSP 无 
论 是 在 iOS 平 台 上 还 是 在 Mac OS 平台 上 都 可 以 使 用 ， 当 然 ， 在 使 用 之 
前 ， 必 须 将 Accelerate 这 个 framework 引 入 我 们 的 项 目 中 ， 具 体 做 法 就 
是 在 工程 文件 的 Build Phases 的 Link Binary with Libraries 中 添加 


Accelerate.framework 这 个 库 ， 然 后 要 使 用 到 vDSP 的 类 时 用 以 下 代码 引 
入 头 文 件 : 


#include <Accelerate/Accelerate.h> 


现在 就 可 以 使 用 vDSP 来 加 速 运 算 了 ，vDSP 中 提供 了 很 多 函数 来 
完成 DSP 运 算 ， 本 节 只 介绍 FFT 的 运算 以 及 与 FFT 运 算 相 关 的 函数 。 使 
用 FFT 时 ， 需 要 先 构造 出 一 个 指针 类 型 的 OpaqueFFTSetup 的 结构 体 ， 
调用 函数 如 下 : 


OpaqueFFTSetup *fftsetup; 
int m_LOG N = lJog2(nfft); 
fftsetup = vDSP_create_ fftsetup(m_ LOG_N,KkFFTRadix2); 


第 一 个 参数 是 在 进行 FFT 转 换 时 使 用 的 窗口 大 小 (为 取 log2 之 后 的 
数值 ) ， 在 v[DSP 中 ，FFT 的 窗口 一 般 是 2 的 N 次 方 ， 所 以 这 里 传 入 以 2 
为 底 取 对 数 的 数值 ， 第 二 个 参数 一 般 传递 iOS 提 供 的 枚 举 类 型 
kFFTRadix2， 这 样 就 构造 出 了 fftSetup 这 个 结构 体 类 型 。 然 后 分 配 一 个 
DSPSplitComplex 的 复数 类 型 作为 FFT 的 结果 和 输出， 代码 如 下 : 


size_t halfSize = nfft / 2; 

splitComplex.realp = new float[halfSize + 1]; 
memset(splitComplex.realp, ©0, sizeof(float) * (halfSize + 1)); 
splitComplex.imagp = new float[halfSize + 1]; 
memset(splitComplex.imagp, ©0, sizeof(float) * (halfSize + 1)); 


如 上 述 代 码 所 示 ， 由 于 用 声 首 做 FFT 的 结果 是 对 称 的 ， 因 此 只 需 
要 去 取 半 部 分 的 数据 。 那 么 ， 为 复数 的 实 部 和 虚 部 分 配 空间 时 ， 也 只 
要 分 配 一 半 的 大 小 就 可 以 了 。 结 构 体 中 的 realp 代 表 了 实 部 的 部 分 ， 
imagp 代 表 了 虚 部 的 部 分 ， 当 分 配 好 这 个 结构 体 之 后 ， 束 可 以 进行 FFT 
运算 了 。 首 和 完 ， 把 要 做 FFT 的 时 域 信号 放 入 上 面 构造 好 的 复数 的 结构 
体 中 ， 代 码 如 下 : 


VvDSP_ctoz((DSPComplex*)input, 2, &splitCcomplex, 1, halfSize); 


输入 的 时 域 信号 是 float 类 型 的 数值 ， 首 先 强制 类 型 应 转换 为 复数 
类 型 ， 然 后 利用 vDSP_ctoz 这 个 函数 将 复数 的 实 部 和 虚 部 分 开 存储 ， 即 
原始 的 复数 结构 体 是 交错 (interleaved) 存放 的 ， 而 转换 之 后 就 是 平 铺 
人 存放 的 。 将 转换 之 后 的 结构 体 作 为 FFT 运 算 的 输入 ， 代 码 
下: 


vDSP_fft_zrip(fftsetup, &splitComplex, 1, m_LOG _N, kFFTDirection_Forward); 


从 上 述 代码 可 以 看 到 ， 第 一 个 参数 是 最 开始 构造 的 
OpaqueFFTSetup 指 针 类 型 的 结构 体 ， 第 二 个 参数 是 时 域 信 号 填充 的 复 
数 结构 体 ， 后 续 的 参数 指定 了 行距 和 大 小 ， 最 后 一 个 参数 代表 做 正 癌 
的 FFT，FFT 的 结 采 还 是 会 放 入 这 个 复数 结构 体 中 ， 我 们 可 以 转换 为 目 
己 的 float 指针 类 型 的 输出 ， 代 码 如 下 : 


for (int i = 0; i < halfSize; i++) { 
outputRe[i] = splitComplex.realp[i]; 
outputIm[i] = splitComplex.imagp[i]; 
} 


待 使 用 完 FFET 之 后 ， 要 将 分 配 的 OpaqueFFTSetup 指 针 类 型 的 结构 
体 销毁 挥 ， 并 且 还 要 将 分 配 的 复数 结构 体内 部 的 实 部 和 虚 部 部 分 的 数 
组 销 驱 挥 ， 代 码 如 下 : 


if (fftsetup) { 
VvDSP_destroy_fftsetup(fftsetup); 
fftsetup = NULL; 


} 
if (splitComplex.realp) { 
delete[] splitComplex.realp; 


} 

if (splitComplex.imagp) { 
delete[] splitComplex.imagp; 
splitComplex.imagp = NULL; 

} 


销毁 完毕 后 ， 当 然 也 可 以 利用 vDSP 来 做 逆 FFT (IFFT) 的 运算 ， 
从 名 字 上 来 看 ， 这 是 FFT 运 算 的 一 个 逆 过 程 (从 频 域 信号 转换 为 时 域 
信号 ) 。 上 面 在 讲解 做 FFT 运 算 的 时 候 ， 提 到 过 最 后 一 个 参数 代表 了 
做 正 回 的 FFT， 如 果 使 用 kKFFTDirection_ Inverse， 则 代表 要 做 逆 辐 的 
FFT 。 一 个 完整 的 做 送 FFT 的 代码 如 下 : 


void fft_inverse(float* input_re, float* input_im, float* output) { 
DSPSplitComplex tsc; 
tsc.realp = input_re,; 
tsc.imagp = Input_im， 
VDSP_fft_zrip(fftsetup，&tsc，1，m_LOG_N，kKkFFTDirection_Inverse )， 
VvDSP_ztoc(&tsc, 1, (DSPComplex*)output, 2, halfSize); 
float Scale = 1.0 / m_nfft; 
VvDSP_vsmul(output, 1, &scale, output, 1, m_nfft),; 


上 述 代 码 中 ， 上 前 先 将 实 部 和 虚 部 放 到 复数 的 结构 体 中 ， 然 后 调用 
FFT 运 算 国 数 。 注 意 ， 此 时 最 后 一 个 参数 的 传递 代表 要 做 池 FFT 运 算 。 
接着 调用 vDSP_ztoc 函 数 将 平 铺 (Plannar) 分 布 的 复数 转换 为 交错 

(interleaved) 分 布 的 output 中 ， 最 终 逆 FFT 的 结果 需要 除 以 窗口 大 小 
才 可 以 还 原 为 原来 的 时 域 信号 ， 其 中 当 除 以 窗口 大 小 时 ， 使 用 了 vDSP 
提供 的 vDSP_vsmul 函 数 来 提升 性 能 。 


4.Android 平 台 的 Nel0 加 速 


在 Android 平 台 上 ， 我 们 能 做 的 优化 殊 是 使 用 Neon 指 令 集 来 加 速 运 
算 。Neon 指 令 集 是 一 种 单 指令 多 数据 的 计算 模式 ， 而 开发 者 直接 使 用 
Neon 指 令 集 来 实现 运算 的 加 速 以 及 实现 FFT， 成 本 太 高 了 ， 一 则 是 
FFT 的 实现 过 于 复杂 ， 二 则 是 测试 成 本 也 比较 繁琐 ， 所 以 下 面 使 用 开 
源 的 Ne10 这 个 库 来 实现 Android 平 台 的 性 能 提升 。 


Nel10 这 个 库 的 介绍 与 安装 可 以 参见 附录 部 分 ， 而 本 节 所 介绍 的 仅 
仅 是 如 何 使 用 Ne10 这 个 库 来 实现 FFT 与 逆 FFT 的 运算 。 首 先 引 入 Ne10 
的 头 文 件 ， 代 人 码 如 下 : 


#include "NE10.h" 


然后 构造 一 个 FFT 运 算 的 配置 结构 体 。 注 意 ， 这 个 配置 项 结构 体 
我 们 选用 的 是 实数 到 复数 (r2c) 的 配置 项 ， 因 为 这 种 FFT 配 置 项 在 做 
音频 的 FFT 运 算 时 更 适合 ， 代 码 如 下 : 


ne10_fft_r2c_cfg_float32_t cfg; 
cfg = ne10_fft_alloc_r2c_float32(nfft ) ， 


构造 这 个 结构 体 需要 传人 的 参数 是 使 用 FFT 运 算 时 的 窗口 大 小 ， 
由 于 我 们 使 用 的 是 Ne10 这 个 库 ， 所 以 在 进行 FFT 运 算 时 需要 将 声音 时 
域 信号 构造 成 Ne10 需 要 的 结构 体 来 进行 输入 。 由 于 这 里 输入 的 是 float 
类 型 的 数组 ， 因 此 Ne10 中 定义 的 也 十 float 类 型 的 数据 ， 代 码 如 下 : 


ne10_ float32_t* in,; 
in = (ne10 float32_t*) NE10_MALLOC (nfft * sizeof (ne10_float32_t) )， 


为 了 获得 FFT 运 算 后 的 结 末 ， 也 需要 构造 出 输出 结构 体 来 接受 FFT 
的 运算 结 有 末 ， 因 为 FFT 的 输出 是 复数 的 结构 ， 分 为 实 部 和 虚 部 ， 所 以 
0 
马 如 下 : 


ne10_fft_cpx_float32_t* out 
out = (ne10_ fft_cpx_float32_t*) NE10_MALLOC (nfft * sizeof 
(ne10_fft_cpx_float32_t)); 


准备 好 以 上 内 容 后 ， 就 可 以 进行 真正 的 FFT 运 算 了 ， 将 输入 的 音 
频 时 域 信号 的 float 数 组 拷贝 到 上 述 定 义 的 输入 结构 体 in 中 ， 然 后 调用 
Ne10 这 个 库 提供 的 FFT 运 算 函 数 进 行 FFT 运 算 。 注 意 ， 这 里 我 们 使 用 
的 运算 函数 是 实数 到 复数 的 FFT 运 算 ， 这 种 FFT 运 算 更 适合 在 音频 场景 
se 会 放 到 上 壕 分 配 的 结构 体 out 中 ， 代 码 
[下 : 


memcpy(in, input, sizeof(float) * m_nfft); 
ne10_fft_r2c_1d_float32_neon(out, in, cfg); 
for (int i = 0; i < m nfft / 2; i++) { 
output_re[i] = out[il].r; 
output_im[i] = out[i].i,; 


} 


经 过 FFT 运 算 之 后 的 结果 束 存 在 于 结构 体 out 中 ， 取 出 前 半 部 分 数 
据 赋值 给 输出 的 实 部 的 float 数 组 和 虚 部 的 float 数 组 中 。 最 终 在 做 完 所 
有 的 FFT 运 算 之 后 ， 需 要 释放 掉 分 配 的 资产， 包括 FFT 配 置 项 、 输 入 结 
构 体 、 输 出 结构 体 ， 代 码 如 下 : 


NE10_FREE(in); 
NE10_FREE (out ); 
NE10_FREE (cfg); 


这 类 似 于 iOS 平 台 的 vDSP 的 优化 方案 ，Ne10 提 供 的 FFT 方 案 肯定 
也 提供 了 逆 FFT 的 运算 操作 ， 代 码 如 下 : 


for (int i = 0; i < m nfft / 2; i++) { 
out[i].r = input_re[i]; 
out[i].i = input_im[i]; 
} 
ne10_fft_c2r_1d _ float32_neon(in, out, cfg); 
memcpy(output, in, sizeof(float) * m nfft); 


从 以 上 代码 可 以 看 到 ， 调 用 逆 FFT 运 算 时 ， 调 用 的 是 c2r 的 FFT 画 
数 ， 即 使 用 从 复数 到 实数 的 转换 函数 来 完成 送 FFT 的 运算 ， 最 终 再 把 训 
人 即时 域 信 号 的 float 数 
组 . 


8.3 基本 乐理 知识 


本 市 来 学 习 基本 的 乐理 知识 ， 为 什么 要 学 习 乐 理 知识 呢 ? 因 为 在 
处 理 声 普 的 时 候 ， 有 一 部 分 是 与 伴奏 或 者 背景 音乐 有 关 的 ， 或 者 与 唱 
歌 或 听 歌 处 理 相 关 的 ， 这 束 需 要 我 们 掌握 一 些 基 本 的 乐理 知识 了 。 


Be 


为 了 能 记录 之 前 发 生 的 事情 ， 人 们 搂 写 出 了 历史 ， 而 不 是 口 口 相 
传 ， 导 致 后 世 不 知 前 世 之 事 。 类 似 的 问题 发 生 在 各 个 领域 ， 比 如 医 
学 、 数 学 、 化 学 、 物 理 等 各 个 领域 。 同 样 ， 音 乐 界 也 不 例外 ， 人 们 为 
了 能 使 美好 的 乐曲 保留 下 来 ， 并 且 便于 学 习 和 交流 ， 于 是 创造 出 了 各 
种 各 样 的 记 谐 方法 ， 而 这 些 记 谱 方 法 惑 是 我 们 所 说 的 乐 谈 。 记 谱 的 方 
法 有 很 多 种 ， 像 壁画 一 样 ， 世 界 各 地 的 人 都 会 创造 首 乐 ， 也 都 会 有 目 
己 的 记 谱 方法 ， 比 如 在 中 国 古 代 广 为 流传 的 《 工 尺 谱 》。 但 是 现在 被 
我 们 广 为 应 用 并 且 熟 悉 的 有 两 种 记 谱 方 法 ， 一 种 是 用 阿拉 伯 数 字 表 示 
的 《 简 详 》， 一 种 是 国际 上 流行 通用 的 《了 五线谱》 。 


下 面 看 看 《我 是 一 个 粉刷 于 》 这 首 歌 曲 的 第 一 句 ， 使 用 人 简谱 记 谱 
方法 和 了 五线谱 的 记 谱 方法 有 何 区 别 ， 人 简谱 记 谱 方法 如 图 8-11 所 示 。 


粉刷 匠 波 兰 歌 
、 色 佳 其 洛 夫 斯 卡 证 
1=G 玫 列 中 斯 全 曲 
中 速 曹 永 声 。 ”译本 
人 过 S | 3 .2 第 你 字 人 六 :3 人 3 1 
我 是 一 个 粉刷 区， 粉刷 本 领 强 ， 我 要 把 那 新 房 子 
图 8-11 


在 图 8-11 中 ， 左 上 角 表 示 节 拍 信息 和 谐 号 。 谱 号 G 表 示 高 音 谱 号 ; 
2/4 代 表 拍 号 ， 每 一 拍 (代表 时 间 长 度 ) 是 四 分 音符 的 时 值 ， 每 一 小 和 
有 两 拍 (代表 节奏 信息 ) 。 乐 曲 的 第 一 行 表示 具体 的 音符 排练 顺序 以 
及 六 到 信息 ，5 3 表示 Sol Mi 两 个 连 起 来 算 作 一 担 ， 而 小 节 之 间 是 使 用 
进行 分 割 的 ， 第 二 个 小 节 的 第 二 拍 do 自 己 占 用 了 这 一 拍 的 时 值 ， 所 以 
前 两 个 小 节 连 接 起 来 就 是 sol mi sol mi sol mi do。 这 是 一 首 儿 歌 ， 音 符 
都 在 一 个 音 组 之 内 (一 个 八 度 之 内 ) ， 而 有 些 歌曲 可 能 要 跨越 多 个 音 
组 ， 对 于 低音 就 在 数字 下 面 加 点 来 表示 ， 高 音 则 在 数字 上 面 加 点 来 表 
示 ， 加 的 点 越 多 ， 代 表 越 低 或 越 高 。 五 线 谱 的 记 谱 方法 如 图 8-12 所 示 。 


粉刷 区 


波 兰 ”儿歌 
译 配 者 : 未 知 


1=B 5 3 S$ 中 1 分 3 2 $5C— 党 - 旬 海 - 汉 SS 3 1 
我 是 一 个 粉刷 区， 粉刷 本 领 5 组， 要 把 那 新 房子 ， 
图 8-12 


图 8-12 中 同时 有 简谱 和 五 线 谱 。 下 面 介绍 五 线 谱 ， 第 一 个 4 表示 高 

音 谱 号 ;，2/4 代 表 拍 号 ， 每 一 拍 都 是 四 分 音符 ， 每 一 小 节 有 两 拍 ， 其 余 
的 是 谱 表 部 分 。 制 作 五 线 谱 时 ， 首 先 应 画 出 五 根 线 ， 五 根 线 画 出 来 之 
后 中 间 就 形成 四 个 空 行 ， 这 在 五 线 谱 中 称 为 间 ， 所 以 五 线 谱 由 五 条 平 
行 的 “ 线 ” 和 四 条 平行 的 * 间 ”组 成 。 而 线 和 间 的 命名 从 下 向 上 依次 是 第 一 
线 、 第 一 间 、 第 二 线 、 第 二 间 、 第 三 线 、 第 三 间 、 第 四 线 、 第 四 间 、 
第 五 线 。 音 符 就 画 在 这 些 线 和 间 上 ， 上 有 具体 画 在 哪个 线 或 哪个 间 上 ， 所 
表达 的 音 高 也 不 一 样 。 这 九 个 音 高 必定 不 能 满足 我 们 想 表达 的 音符 ， 
那 应 该 怎么 办 ? 五 线 谱 的 上 边 和 下 边 都 可 以 再 加 线 和 间 ， 向 上 即 所 谓 
的 上 加 一 间 ， 上 加 一 线 ， 直 至 上 加 五 线 ， 向 下 即 所 谓 的 下 加 一 间 ， 下 
加 一 线 ， 直 至 下 加 五 线 。 但 是 ， 即 使 是 这 样 ， 也 只 能 够 表示 29 个 音符 

(本 来 可 以 表示 9 个 音符 ， 上 边 可 以 加 五 间 五 线 ， 下 边 可 以 加 五 间 五 
线 ) ， 能 表示 的 音符 还 不 够 。 因 此 就 有 了 谱 号 ， 即 在 五 线 谱 的 最 开始 
要 标记 到 底 是 高 音 谱 号 还 是 低音 谱 号 或 者 中 音 谱 号 使 用 最 多 的 是 高 音 
谱 号 和 低音 谱 号 。 高 音 谱 号 如 图 8-13 所 示 。 


高 音 谱 号 也 称 G 谱 号 。 对 于 高 音 谱 号 ， 下 加 一 线 是 do (中 央 C 的 
do) ， 三 间 就 是 高 八 度 的 do， 上 加 两 线 是 再 高 一 个 八 度 的 do。 关 于 度 
数 ， 后 面 会 有 详细 的 介绍 ， 大 家 可 以 理解 为 更 高 的 一 组 音 。 低 音 谱 号 
如 图 8-14 所 示 。 


图 8-13 


图 8-14 


低音 谱 号 也 称 F 谱 号 。 对 于 低音 谱 号 ， 上 加 一 线 是 do (中 央 C 的 
do) ， 二 间 是 低 八 度 的 do， 下 加 二 线 是 再 低 八 度 的 do。 图 8-15 所 示 的 是 
将 简谱 、 刁 线 说 、 唱 名 与 钢 芬 键盘 画 在 了 一 个 图 中 ， 大 家 可 以 对 照 闭 
看 一 下 ， 以 便 加 深 理 解 。 


个 同 的 谱写 代表 在 了 五线谱 中 每 个 线 或 者 每 个 间 所 表达 的 音 高 是 个 
一 样 的 。 五 线 谱 是 世界 范围 内 通用 的 记 谱 方法 ， 因 为 它 古 最 科学 、 最 
容易 理解 的 记 谱 方 法 。 


/ 


钢琴 键盘 与 五 线 谱 、 简 谱 音 高 对 照 表 
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图 8-15 


五 线 谱 由 三 部 分 组 成 ， 分 别 是 谱 号 、 谱 表 和 音符 ， 其 中 前 两 部 分 
已 经 介绍 完成 ， 剩 下 的 就 是 音符 。 音 符 比 较 复杂 ， 因 为 它 涉及 的 概念 
比较 多 ， 所 以 下 面 分 别 从 音符 的 音 高 和 时 值 两 个 方面 来 进行 介绍 。 


8.3.2 ”音符 的 音 高 与 十 二 平均 律 


如 何 描述 一 个 乐谱 ? 常用 的 有 五 线 谱 、 简 谱 等 。 无 论 是 五 线 谱 ， 
还 是 简谱 ， 都 是 表示 音符 的 音 高 和 音符 的 时 值 。 时 值 是 由 节拍 信息 定 
义 的 ， 而 本 节 讨 论 的 是 音符 的 首 高 部 分 。 首 符 也 有 两 种 表 壕 方式 第 
一 种 就 是 大 家 经 常 唱 的 do re mi fa sol la si， 即 唱 名 ， 也 是 大 家 最 常 使 用 
的 ; 第 二 种 束 是 音 名 ， 即 CDEFGAB*。 


基本 乐理 的 概念 比较 多 ， 下 面 我 们 逐一 来 理 清楚 。 图 8-16 所 示 的 键 
盘 图 可 以 看 到 一 个 中 央 C 的 日 键 ， 音 名 记 为 c1， 从 cl 同 右 数 ， 一 直 数 到 
c2， 这 一 捉 连 续 的 音 称 为 一 个 音阶 。 同 时 ，c2 这 个 日 键 所 发 出 声音 的 
频率 恰好 是 c1 这 个 日 键 发 出 声音 频率 的 2 倍 。 一 个 音阶 同时 也 称 为 一 个 
首 组 ， 在 键盘 上 中 央 C 所 在 的 这 个 首 组 称 为 小 字 一 组 ， 向 右 数 下 去 的 每 
个 组 分 别 是 c2 所 在 的 小 字 二 组 ，c3 所 在 的 音 组 是 小 字 三 组 ，c4 所 在 的 音 
组 征 小 字 四 组 。 那 么 ， 回 相反 的 方 癌 数 的 话 ， 即 c 所 在 的 音 组 是 小 字 
组 ，C 所 在 的 音 组 是 大 字 组 ，cl 所 在 的 音 组 是 大 字 一 组 。 可 这 么 多 组 如 
何 记忆 呢 ? 其 实 很 简单 ， 大 家 只 要 记 住 首 名 就 可 以 了 ， 首 先 找到 比 中 
央 C 低 八 度 的 音 名 为 c 的 这 一 组 ， 所 有 的 音 名 都 是 小 写字 母 表示 ， 所 以 
称 为 小 字 组 。 从 这 一 音 组 向 右 数 每 增加 一 个 八 度 音 名 都 会 在 小 写字 母 
后 加 1， 同 时 音 组 就 成 为 小 字 几 组 《比如 中 央 C 所 在 的 音 组 成 为 小 字 一 
组 ) 。 再 看 比 中 央 C 低 2 个 八 度 的 音 名 是 C 的 这 一 组 ， 所 有 的 音 名 都 是 大 
写字 母 表示 ， 所 以 称 为 大 字 组 ， 从 这 一 组 癌 左 数 ， 每 低 一 个 八 度 音 名 
束 在 大 写字 母后 边 加 1， 而 所 在 的 音 组 束 是 大 字 几 组 ， 这 样 束 能 比较 简 
单 地 记 住 音 名 及 所 有 的 音 组 了 。 


这 里 不 得 不 再 引入 一 个 音程 的 概念 。 音 程 是 指 两 个 音符 之 间 的 音 
高 关系 ， 一 般 用 度 来 表示 。 对 照 图 8-16 中 的 钢琴 键盘 来 看 ， 从 c1 到 c1 称 
为 一 度 ， 从 c1 到 d1 称 为 两 度 ， 依 此 类 推 。 我 们 常 说 从 cl 到 c2 之 间 差 了 八 
度 ， 而 八 度 实 际 上 是 指 音程 之 间 的 关系 。 
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可 以 数 一 下 ， 所 有 的 键 (包括 黑 键 和 白 键 ) 加 起 来 恰好 是 十 二 

而 相 邻 键 之 间 称 为 一 个 半音 ， 即 el 和 fl 之 间 是 一 个 半音 ，c1 和 dl 之 
可 个 全 音 ， 而 从 1 到 c2 有 12 个 半 宪 省， 这 也 就 引 出 了 即 
将 和 大 家 介绍 的 概念 二 平均 律 。 十 二 平均 律 的 定义 如 下 。 


二 平均 律 亦 称 * 十 一 等 程 律 *， 世 界 上 把 一 组 音 分 成 十 二 个 半音 
音程 的 乔 制 ， 各 条 信 两 健 之 间 的 振 汉 数 之 认 完 全 相等 


钢 雁 了 驶 是 十 二 平均 律 制 的 乐器 ， 国 际 标准 音 规定 ， 钢 秦 的 al (小 
字 组 的 A 音 ， 其 实 隋 是 中 央 C 这 个 音节 的 A 音 ) 的 频率 是 440Hz， 并 且 规 
定 每 相 邻 半音 的 频率 比值 为 2^ (1/12) xs1.059463。 根 据 这 两 个 规定 ， 
建 音 的 频率 ， 比 如 al 的 左边 的 黑 键 升 g1 的 频率 


440/1.059463=415.305Hz 
al 右边 的 墨 键 升 al 的 频率 为 : 
440x1.059463=466.16372Hz 


依照 这 种 运算 ， 可 计算 出 a 的 频率 为 220Hz，a2 的 频率 为 880Hz， 人 恰 
奸 关 本 122 7 频率 是 一 倍 的 关系 。 这 种 定 音 方式 就 是 “十 二 平均 
律 "”。 为 什么 钢琴 称 为 乐器 之 王 ， 是 因为 钢琴 的 音域 范围 为 A2 
(27.5Hz) ~c5 (4186Hz) ， 几 乎 赛 括 了 乐音 体系 中 的 全 部 乐音 。 


而 有 的 读者 文言 功底 比较 深厚 ， 可 能 知道 中 国 传统 五 声音 阶 为 : 


宫 gong、 商 shang、 和 角 jué、 币 zhi、 羽 yu 


这 是 我 国 五 声音 阶 中 五 个 不 同音 的 名 称 ， 对 应 唱 名 的 话 ， 宫 等 于 
Do， 商 等 于 Re， 角 等 于 Mi， 征 等 于 Sol， 羽 等 于 La， 这 比 现代 乐谱 中 
少 了 Fa 和 Xi 这 两 个 音 。 其 实在 我 们 的 十 音阶 中 ， 变 宫 与 变 征 分 别 对 应 
于 Fa 和 Xi。 关 于 中 国 的 五 声音 阶 最 早 的 记载 出 现在 春秋 时 期 ， 可 见 音 
乐 是 不 分 国界 、 不 分 时 间 的 ， 每 个 国家 都 有 上 自己 的 乐 律 ， 而 中 国 音乐 
史上 著名 的 “三 分 损益 法 ”就 是 古代 发 明 制 定 音 律 时 所 用 的 生 律 法 。 


38.3.3 音符 的 时 住 


音符 的 时 值 是 指 这 个 音符 所 持续 的 时 间 。 平 时 大 家 衡量 时 间 是 有 
单位 的 ， 而 音符 是 如 何 体现 自己 的 单位 的 呢 ? 其 实 就 是 长 得 不 一 样 。 
音符 一 般 由 三 部 分 组 成 ， 即 符 头 、 符 干 、 符 尾 。 下 面 我 们 来 看 一 个 简 
单 的 音符 ， 如 图 8-17 所 示 。 


大 家 应 该 很 熟悉 图 8-17 中 的 这 个 音符 ， 因 为 在 很 多 地 方 都 以 此 音符 
来 表示 音乐 ， 这 个 音符 是 一 个 八 分 音符 。 音 符 共有 多 少 种 表示 呢 ? 请 


看 图 8-18。 
图 8-17 
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图 8-18 


在 图 8-18 中 ， 一 拍 的 单位 一 般 为 一 个 四 分 音符 ， 用 一 个 实心 符 头 和 
一 个 符 干 表示 。 为 什么 符 二 有 的 向 上 画 ， 有 的 向 下 夯 ? 主要 是 为 了 在 
五 线 谱 中 更 加 容易 被 识 谱 者 观察 。 在 五 线 谱 中 规定 符 头 要 左 低 右 高 呈 


四 


椭圆 形 ， 在 五 线 谱 三 线 以 上 的 香干 要 问 下 男 并 且 在 符 头 的 左边 ， 在 三 
0 般 以 一 个 八 
度 为 单位 。 


大 家 可 能 觉得 图 8-12 所 展示 的 粉刷 匠 的 五 线 谱 中 的 音符 并 不 存在 于 
这 个 表 中 ， 不 要 着 急 ， 在 五 线 谱 中 还 有 一 种 画 法 叫 共 用 符 尾 ， 像 粉刷 
于 中 的 第 一 个 小 节 束 有 4 个 八 分 首 符 共用 一 个 符 尾 。 


还 有 一 些 休止符 、 变 化 首 等 比较 特殊 的 音符 标记 方法 ， 这 里 不 一 
ys 


8.3.4 节拍 


节拍 是 指 强 拍 和 弱 担 的 组 合 规律 ， 有 很 多 有 强 有 弱 的 音 ， 在 长 度 
时 间 内 ， 按 照 一 定 的 顺序 反复 出 现 ， 形 成 有 规律 的 强 弱 变化 ， 使 得 整 
人 节奏 感 。 根 据 强 、 弱 的 不 同 ， 可 以 组 合成 各 种 情绪 、 不 同 
X J 中小 \ 


音符 除了 记录 音符 的 音 高 外 ， 还 要 记录 音符 的 时 值 。 时 值 的 表示 
忠 是 通过 市 拍 来 表示 的 。 


折 号 是 乐谱 小 节 的 书写 标准 ， 在 乐谱 中 以 一 个 分 数 的 形式 来 表 
示 。 比 如 4/4， 分 母 的 4 表示 以 一 个 四 分 音符 为 一 拍 ， 分 子 的 4 表示 每 小 
节 有 四 拍 。 其 实 拍 号 是 一 个 相对 的 时 间 单 位 ， 它 只 能 表示 每 一 个 小 节 
里 有 几 个 拍子 以 及 每 个 拍子 的 时 值 。 但 是 ， 具 体 占 多 长 时 间 该 怎么 表 
示 呢 ? 这 又 要 引入 另外 一 个 概念 ， 即 BPM 。 


BPM (Beat Per Minute) ， 即 每 分 钟 节 拍 数 的 单位 。 最 浅显 的 理 
解 就 是 在 一 分 钟 时 间 内 声音 节拍 的 数量 (相当 于 拿 一 个 节拍 器 在 一 分 
钟 之 内 发 出 节拍 的 数量 ) ， 这 个 数量 的 单位 便 是 BPM， 也 叫 拍子 数 。 
BPM 就 是 每 分 钟 的 节拍 数 ， 是 全 曲 速度 标记 ， 是 独立 在 曲谱 外 的 速度 
标准 ， 一 般 以 一 个 四 分 音符 为 一 拍 ，60BPM 为 一 分 钟 演奏 均匀 60 个 四 
分 音符 〈 或 等 效 的 音符 组 合 ) 。 由 于 60BPM 对 应 的 曲目 速度 为 一 分 钟 
均匀 演奏 60 个 四 分 音符 〈 或 等 效 音符 组 合 ) ， 所 以 一 个 四 分 音符 (或 
等 效 音符 组 合 ) 的 时 值 应 为 1 秒 ， 而 对 应 的 提供 给 演奏 者 显示 的 演奏 速 
度 。 一 般 情 况 下 ， 歌 曲 分 为 慢 速 (节奏 ) 歌曲 、 中 速 歌曲 、 快 速 ( 节 
奏 ) 歌曲 ， 对 应 于 节拍 的 话 ， 慢 速 每 分 钟 40~69 拍 ;中 速 每 分 钟 约 90 
拍 ; 快速 每 分 钟 108~-208 拍 。 


8.3.5 ”MIDI 格式 


MIDI (Musical Instrument Digital Interface， 乐 器 数字 接口 ) ， 是 
20 世 纪 80 年 代 初 为 解决 电 声 乐器 之 间 的 通信 问题 而 提出 的 。 MIDI 是 编 
曲 界 最 广泛 的 音乐 标准 格式 ， 可 称 为 计算 机 能 理解 的 乐谱 。 它 用 音符 
的 数字 控制 信号 来 记录 音乐 ， 一 百 完 整 的 MIDI 音 乐 只 有 几 十 KB， 而 且 
能 包含 数 十 条 音乐 轨道 。MIDI 中 存储 的 不 是 声音 ， 而 是 音符 、 控 制 参 
数 等 指令 ， 能 解析 MIDI 的 设备 会 根据 MIDI 文 件 中 的 指令 来 播放 。 具 体 
首 符 在 MIDI 中 是 如 何 表 示 的 呢 ? 可 以 使 用 一 张 键盘 图 来 了 解 首 符 对 应 
的 MIDI 的 名 字 以 及 MIDI 值 ， 如 图 8-19 所 示 。 


从 图 8-19 可 以 看 到 ， 中 央 C 的 频率 为 261.63Hz， 而 所 对 应 的 MIDI 名 
称 是 C4， 对 应 的 MIDI 值 是 60。 对 于 MIDI 值 ，MIDI 的 名 称 该 如 何 记忆 
呢 ? 其实 很 简单 ， 前 面 在 讲 音 组 时 ， 已 经 知道 键盘 最 低 的 音 组 是 大 字 
二 组 (当然 大 字 二 组 只 有 A 和 B 两 个 音 ) ， 大 字 二 组 的 第 一 个 音 A 就 是 
MIDI 的 A0， 第 二 个 音 B 束 是 MIDI 的 BO0。 在 图 8-19 中 ， 癌 下 数 就 可 以 数 
出 所 有 的 MIDI 名 称 。 而 对 于 MIDI 值 ， 我 们 只 要 记 住 中 央 C (cl) 的 
MIDI 值 是 60 或 者 小 字 一 组 的 A 音 (al) 是 69， 然 后 根据 十 二 平均 律 就 
可 以 全 部 计算 出 来 。 


具体 的 MIDI 制 作 整 不 在 这 里 详细 展开 了 ， 可 以 使 用 某 一 些 电 子 钢 
和 琴 ， 甚 至 现在 有 一 些 App 都 可 以 将 乐 者 弹 妥 的 音符 (包括 首 高 和 时 值 ) 
记录 下 来 。 那 我 们 解析 出 了 对 应 的 时 间 上 的 音符 能 做 什么 呢 ? 其 实 有 
很 多 种 用 处 ， 如 采 我 们 知道 一 放歌 曲 对 应 的 MIDI 信 息 ， 在 K 歌 应 用 中 
就 可 以 给 用 户 做 打分 ， 即 评测 用 户 唱 的 音 高 和 MIDI 中 的 音 高 是 否 匹 
配 ， 从 而 作为 打分 的 依据 ， 也 可 以 进行 一 些 节 奏 修 正和 首 高 修正 ， 因 
为 MIDI 中 包含 了 时 间 信 息 和 音 高 信息 ， 我 们 可 以 对 用 户 唱 的 歌曲 进行 
对 齐 节 考 和 修正 音 高 等 操作 。 


下 一 节 开 始 会 介绍 混 音 效果 器 ， 以 让 大 家 了 解 具体 的 混 音 过 程 
帮助 大 家 对 声音 做 出 更 好 的 处 理 。 


MIDI 


number 


21 
23 


[4 
[4 


Note 
name Keyboard 


Frequency 


27.500 
30.86% 
32.703 
36.708 
41.203 
43.654 
48.999 
55.000 
61.735 
65.406 
73.416 
82.407 
87.307 
97.999 
110.00 
123.47 
130.81 
146.83 
164.81 
174.61 
196.00 
220.00 
240.94 
201.63 
293.67 
329.63 
349.23 
392.00 
440.00 
493.88 
523.25 
587.33 
659.26 
698.46 
783.99 
880.00 
987.77 
1046.5 
1174.7 
1318.5 
1396.9 
156%.0 
1760.0 
1975.5 
2093.0 
2349.3 
2037.0 
2793.0 
3136.0 
3S20.0 
3951.1 
4186.0 


图 


2 


34.648 
38.891 


46.249 
51.913 
58.270 


69.296 
77.782 


92.499 
103.83 
116.,54 


138.59 
155.56 


183.00 
207.65 
233.08 


277.18 
311.13 


2489.0 
29060.0 


3322.4 
3729.3 


8-19 


Period 


36.36 
32.40 
30.58 
27.24 
24.27 
22.91 
20.41 
18.1&8 
16.20 
15.29 
13.62 
12.13 
11.45 
10.20 
9.091 
8099 
7.645 
6B.811 
6.068 
S727 
5.102 
4.545 
4.050 
3.822 
3.405 
3.034 
2.863 
2.551 
2.273 
2.025 
1.910 
1.703 
1.$17 
1.432 
1.276 
1.136 
1.012 
0.955 6 
0.851 3 
0.758:4 
0.71S 9 
U.637 8 
0.568 2 
0.506 2 
0.477 8 
0.425 7 
0.379 2 
0.358 0 
0.3189 
0.234 1 
2531 
0.238 9 


ms 


0.9020 
0.8034 


0.6757 
0.6020 
0.5363 


0.4510 
0.4018 


0.3378 
0.3010 
0.2681 


8.4 混 音 效果 需 


在 音乐 类 App 中 ， 进 行 宴 音 处 理 是 必 不 可 少 的 一 项 工作 ， 而 混 音 
这 门 学 科 也 是 非常 复杂 的 。 作 为 一 个 优秀 的 混 音 师 ， 不 仅 要 有 编 曲 经 
验 ， 而 且 要 会 乐 絮 懂 乐 理 ， 还 要 能 分 辩 什 么 样 的 声音 是 好 声 首 ， 同 时 
会 使 用 混 音 的 工具 。 本 节 会 介绍 一 些 混 音 中 的 基础 知识 ， 包 括 一 些 稼 
用 混 音 工具 的 使 用 。 


8.4.1 均衡 效果 髓 


均衡 效果 器 又 称 为 均衡 器 (Equalizer) ， 其 最 大 的 作用 就 是 决定 声 
首 的 远近 层次 。 我 们 时 常 听 到 别人 说 这 首 歌曲 是 重金 属 风 格 的 歌曲 ， 
或 者 说 这 首 歌曲 是 舞曲 风格 等 ， 其 实 就 与 声音 的 远近 层次 有 关 。 不 同 
歌曲 风格 的 区 别 在 于 声音 在 不 同 频段 的 提升 或 衰减 。 


均衡 效果 器 具有 美化 声音 的 作用 ， 即 调整 音色 ， 每 个 人 由 于 上 自身 
声 道 、 鼎 腔 、 口 腔 的 形状 不 同 ， 导 致 首 色 不 同 。 如 琳 这 个 用 户 所 发 出 
的 声音 在 低频 部 分 比较 薄弱 ， 束 可 以 在 低频 部 分 予以 增强 ， 使 得 整个 
声音 听 起 来 更 加 温暖 ; 那个 用 户 所 发 出 的 声音 在 高 频 部 分 又 过 于 强烈 
(薄弱 ) ， 则 可 以 在 高 频 部 分 予以 减弱 (增强) ， 可 以 使 声音 听 起 来 
不 那么 刺耳 (更 加 晾 竞 ) 。 当 然 ， 专 家 级 别 的 混 音 师 在 为 歌手 处 理 后 
期 混 音 时 ， 会 有 更 复杂 的 调节 方法 ， 比 如 这 个 歌手 的 声音 低频 部 分 有 
瑕 疲 ， 可 以 提高 中 频 部 分 来 掩盖 有 正 狂 的 低频 段 的 声音 。 


均衡 右 最 早 古 用 来 补 修 频 率 缺 陷 的 ， 因 为 那 时 音频 设备 的 信号 串 
质 很 过 ， 在 传输 过 程 中 损失 非 钟 严重， 到 最 后 除非 进行 信号 补偿 ， 人 否 
则 信号 就 会 变 得 极 益 。 而 现在 均衡 紫 更 多 的 应 用 在 掩盖 歌手 的 菜 一 个 
频段 的 声音 缺陷 ， 或 者 增强 某 一 个 频段 的 声音 优势 上 。 


接 下 来 看 一 下 声音 的 频率 分 布 。 

1) 超 低 频 。1~20Hz 范 围 ， 大 约 是 4 个 八 度 的 范围 。 这 个 声音 ， 人 
的 耳 东 是 听 不 到 的 ， 如 采 音 量 很 大 ， 我 们 的 耳 末 能 够 感觉 到 一 种 压力 
感 ， 比 如 地 震 就 可 以 产生 这 种 频率 。 一 般 来 说 ， 这 个 频段 和 音乐 没有 


2) 非常 低频 。20~40Hz 范 围 ，1 个 八 度 (频率 差 两 倍 ) 的 范围 
这 个 频率 也 是 很 低 的 ， 一 般 远 距离 的 雷 声 以 及 风声 在 这 个 频段 里 。 这 
个 频段 的 音效 ， 在 音乐 中 还 是 会 经 常用 到 的 。 


3) 低频 。40~-160Hz 范 围 ，2 个 八 度 的 范围 。 电 贝斯 的 声音 属于 这 
个 频段 ， 当 然 ， 低 音 提琴 、 钢 琴 也 拥有 这 个 音域 。 这 就 是 音乐 中 常用 
的 频段 了 。 男 低音 也 可 以 发 出 这 个 频段 中 的 一 部 分 声音 。 


4) 低 中 频 。160~315Hz 范 围 ，1 个 八 度 。 这 个 八 度 音 ， 男 中 音 可 
以 发 出 。 单 党 管 、 巴 松 管 、 长 笛 也 拥有 这 个 频段 的 声音 。 


5) 中 频 。315~2500Hz 范 围 ，3 个 八 度 。 这 是 人 耳 最 容易 接受 的 声 
音频 段 。 我 们 从 电话 听 简 里 听 到 的 声音 一 般 就 属于 这 个 频段 。 如 果 没 
有 低频 和 高 频 ， 单 独 听 这 个 频段 ， 是 很 干涩 的 。 


6) 中 高 频 。2500~-5000Hz 范 围 ，1 个 八 度 。 人 耳 对 这 段 音程 是 最 
敏感 的 。 声 音 的 清晰 度 和 透明 度 都 是 通过 这 个 频段 来 决定 的 。 音 乐 的 
音量 也 主要 由 这 个 频段 影响 ， 人 声 的 泛音 也 会 在 这 个 频段 出 现 。 如 公 
共 广 播 用 的 喇叭 就 是 专门 设计 成 3000Hz 左 右 的 频段 。 


7) 高 频 。5000~10000Hz 范 围 ，1 个 八 度 。 这 个 频段 会 使 音乐 更 明 
亮 。 多 种 高 音乐 器 都 拥有 这 个 频段 的 声音 ， 人 的 展区 音 也 在 这 个 频段 


O 〇 


8) 超 高 频 。10000~ 人 20000Hz 范 围 ，1 个 八 度 。 这 是 可 听 频 率 范 围 
内 最 高 的 音程 ， 需 要 很 高 的 泛音 才 可 以 达到 这 个 范围 ， 在 音乐 中 很 少 
见 ， 而 且 人 耳 对 这 个 频段 很 难 辨 别 。 但 是 ， 这 个 频段 丰富 的 泛音 可 以 
作用 于 其 他 频段 的 声音 ， 对 音色 有 很 大 的 影响 。 

了 解 了 声音 的 分 布 之 后 ， 我 们 可 以 使 用 最 简单 的 Audacity 工 具 打 开 


一 段 声 首 ， 在 表单 中 的 特效 选项 下 选择 均衡 (Equalizer) ， 可 以 看 到 均 
衡器 的 调 市 采 单 ， 如 图 8-20 所 示 。 


-30dB 


20Hz 40Hz$1Hz100Hz 200Hz 400Hz 1000Hz 2000Hz 4000Hz 10000Hz 


加 绘制 曲线 (D) 〇 图形 化 均衡 (G) 口 线性 频率 缩放 (N) 过 滤 长 度 (F): \ 厂 一 一 一 一 4001 
选择 曲线 (S): 「 Bass Boost 图 | 保存 /管理 曲线 ...(A) ][ 变 平坦 (T) ] | 上 下 翻转 () 】 回 显示 网 格 {R) 
预览 (V) ) 取消 (C) | » 

ZA 
图 8-20 


在 图 8-20 中 ， 中 间 部 分 有 一 个 曲线 ， 横 轴 是 频率 ， 纵 轴 是 dB (0dB 
以 上 代表 增强 ，0dB 以 下 代表 减弱 ) ， 如 果 我 们 点 击 变 平坦 按钮 ， 会 看 
到 这 个 曲线 是 在 0dB 上 的 一 条 水 平 的 直线 ; 如果 我 们 打开 选择 曲线 的 荣 
单 ， 则 会 看 到 一 些 默 认 的 曲线 ， 其 中 包括 以 下 曲线 。 

.Bass Boost: 低音 增强 ; 

.Bass Cut: 低音 截断 (类 似 于 高 通 滤波 器 ) : 

“Treble Boost: 高 音 增强 ; 


“Treble Cut: 高 音 截断 〈 类 似 于 低 通 滤波 器 ) ; 


:Telephone: 代表 电话 音质 (频率 分 布 在 400~-3000Hz 范 围 ) ; 
.AM Radio: 代表 收音 机 音质 〈 频 率 分 布 在 50~-400Hz 范 围 ) 。 


选择 其 中 一 个 预制 的 效果 器 可 以 看 到 曲线 的 变化 ， 后 击 预 金 按钮 
可 以 对 加 入 这 个 效果 器 的 音频 效 末 进行 预 视 。 当 然 ， 可 以 抑 忠 曲线 来 
对 某 一 个 频率 进行 增强 或 者 减弱 ， 然 后 进行 预 筑 。 也 可 以 选择 图 形 化 
的 均衡 单 计 框 ， 如 图 8-21 所 示 。 


20Hz 40Hz6lHz 100Hz 200Hz 400Hz 1 000Hz 2000Hz 4000Hz 10 000Hz 


图 8-21 


在 图 8-21 中 出 现 了 各 种 频率 上 的 渭 动 块 ， 可 以 通过 背 动 块 来 将 这 个 
频率 的 声音 增强 或 减弱 。 同 时 从 图 8-21 所 示 的 曲线 上 还 可 以 看 到 ， 调 整 
完毕 之 后 反击 预 多 按钮 可 以 试听 效 来 ， 如 琳 最 终 确 定 了 所 有 人 参数， 所 
击 确定 按钮 ， 束 可 以 将 这 一 组 均衡 效果 紫 作 用 到 声音 上 试听 整个 声音 


的 效果 。 


上 面 描述 了 Audacity 工 具 如 何 使 用 均衡 器 来 修正 声音 ， 接 下 来 重点 
分 析 我 们 需要 对 均衡 器 设置 哪些 参数 。 


最 直观 的 参数 就 是 频率 ， 即 修正 (增强 或 者 减弱 ) 哪 一 个 频率 附 
近 的 声音 ， 所 以 第 一 个 最 主要 的 参数 就 是 frequency (代表 哪 一 个 频 
率 ) 。 如 何 修正 呢 ? 可 以 使 用 参数 gain (代表 增益 是 多 少 ) ， 除 该 参数 
外 ， 还 有 一 个 参数 可 以 使 用 ， 即 bandWidth 〈 代 表 频 宽 ) 。 均 衡器 修正 
的 不 是 某 个 单一 频率 上 的 声 首 而 是 一 个 频段 的 声 首 。 所 谓 频 段 就 是 以 
一 个 频率 作为 中 心 点 左右 扩充 一 定 的 频率 ， 就 形成 了 一 个 频段 ， 具 体 
这 个 频段 有 多 大 ， 可 用 bandWidth 来 表示 。bandWidth 和 常用 的 表示 单位 有 
两 个 : 一 个 是 O， 即 Octave， 代 表 一 个 首 程 即 一 个 八 度 。 基 本 乐理 中 我 
们 描述 过 ， 一 个 八 度 体 现在 频率 上 就 是 2 倍 的 频率 ， 如 果 我 们 定义 的 中 
心 频率 为 2kKHz， 频 宽 为 1.0 (单位 为 Octave) ， 增 益 为 3dB， 那 么 对 应 
到 图 中 的 曲线 就 是 从 1kHz 开 始 上 升 ， 到 2kHz 上 升 到 峰值 3dB， 到 3kHz 


以 后 殊 不 再 上 升 ， 这 完全 搬 述 了 这 个 频段 的 增强 。 男 外 一 个 是 Q， 即 

Quality Factor (质量 系数 ) ， 代 表 一 个 音程 调整 的 有 效 影响 斜率 ， 也 就 
征 大 家 季 说 的 Q 值 ， 其 实 这 和 前 面 第 一 种 表示 方法 想 达到 的 效 末 是 一 样 
的 。 实 际 上 ，Q 和 0O 有 一 定 的 换算 关系 的 ， 因 为 我 们 在 不 同 的 平台 或 者 
开源 算法 中 使 用 EQ 的 时 候 不 一 定 知 道 要 填 入 的 bandWidth 单 位 是 什么 ， 
所 以 我 们 要 知道 两 者 是 如 何 进行 换算 的 。 若 我 们 知道 O 值 (有 多 少 个 八 
度 ) ， 那 么 如 何 计算 出 Q 值 ， 可 如 式 (8-1) 所 示 。 


V2™ 


N ( 8-1 ) 
2°—1 


QO = 


如 果 知 道 Q 值 ， 那 么 如 何 计 算出 O 值 (有 和 多少 个 八 度 ) ， 可 如 式 
(8-2) 所 示 。 


. (8-2 ) 


sl 小 人 
0 < 


log 2 log2 
log2 = 0.30103 


从 式 8-1 和 式 8-2 两 个 公式 可 以 知道 ， 只 要 给 出 任意 一 个 值 ， 就 可 以 
计算 出 男 外 一 个 值 。 


均衡 戏 来 右 的 作用 以 及 应 用 场景 大 家 已 基本 清楚 了 ， 本 六 只 古 均 
衡器 的 一 个 入 门 ， 混 音 师 真 正 使 用 均衡 器 的 时 候 ， 很 少 会 对 某 个 频段 
上 的 声音 进行 能 量 增 强 ， 反 而 会 把 其 他 频段 上 的 声音 能 量 进 行 衰减 ， 
所 以 在 使 用 的 时 候 ， 并 不 是 一 味 地 增加 能 量 ， 而 要 根据 具体 情况 具体 
分 析 。 下 面 会 讨论 如 何在 Android 和 iOS 平 台 上 实现 均衡 效果 器 。 


8.4.2 ”压缩 效果 器 


压缩 效果 器 又 称 为 压缩 器 〈Compressor) ， 是 指 在 时 域 上 对 声音 强 
度 所 进行 的 一 个 处 理 。 压 缩 器 也 可 以 简单 地 理解 为 : 当 音 频 的 音量 剧 
增 的 时 候 ， 目 动 将 音量 调 小 一 点 。 压 缩 帮 束 是 改变 输入 信号 和 输出 信 
号 电 平 大 小 比率 的 效果 絮 ， 如 图 8-22 所 示 。 


整体 增益 


输入 信号 
图 8-22 


在 图 8-22 中 ， 最 重要 的 一 个 概念 是 门限 值 (Threshold) ， 即 只 有 
达到 这 个 门限 值 才 会 进入 压缩 器 的 工作 范围 ， 整 体 增益 (Unity Gain) 
忠 古 输入 信号 和 输出 信号 完全 一 样 ， 也 束 古 对 输入 信 合 不 做 任何 改 
变 ， 即 压缩 比 为 1:1。 这 就 又 提 到 了 男 外 一 个 重要 的 概念 ， 即 压缩 比 。 
这 个 概念 很 简单 ， 可 以 理解 为 图 中 直线 的 斜率 。 如 果 将 压缩 比 调整 为 
2:1， 大 于 门限 值 的 输入 信号 将 以 2:1 的 比例 被 压缩 ， 比 如 2dB 的 输入 信 
号 在 经 过 压缩 器 后 就 被 压缩 掉 了 1dB， 这 也 就 是 图 8-24 中 的 2:1 这 条 曲 
线 ; 但 如 采 将 压缩 比 改 为 20:1 的 曲线 ， 即 比率 设置 成 为 20:1， 这 时 压缩 
妖 束 变 成 一 个 限制 器 ， 输 入 信和 与 经 过 | ] 限 值 之 后 每 增加 20dB 的 电 平 ， 


输出 只 能 增加 1dB。 所 谓 限 制 器 就 是 常 说 的 峰值 限制 器 (Peak 
Limiter) 。 在 压缩 器 中 还 有 两 个 非常 重要 的 参数 ， 一 个 是 作用 时 间 
(Attack Time) ， 另 外 一 个 是 释放 时 间 (Release Time) 。 下 面 分 别 介 
绍 这 两 个 参数 的 意义 。 


作用 时 间 (Attack Time) ， 又 称 起 始 时 间 ， 用 于 决定 压缩 器 在 超 
过 门限 值 后 多 入会 触发 压缩 融 来 工作 。 前面 说 过 ， 超 过 门限 值 之 后 束 
到 了 压缩 器 的 工作 范围 ， 但 是 不 代表 压缩 絮 束 会 立马 工 作 ， 而 这 里 的 
起 始 时 间 实 际 上 束 古 触发 压缩 右 工 作 的 时 间 。 为 什么 要 使 用 这 个 参数 
来 触发 压缩 器 工作 ? 假设 输入 电 平 有 一 个 瞬时 峰值 压缩 器 束 进 入 工 
作 ， 那 么 这 束 达 不 到 压缩 如 的 最 初 目的 ， 因 为 压缩 右 的 存在 就 古 为 了 
让 整个 音频 作品 平稳 地 在 一 定 的 能 量 范 围 内 ， 所 以 设置 一 个 起 始 时 
间 ， 让 压缩 器 躲 过 这 些 瞬 时 峰值 而 持续 工作 。 


释放 时 间 (Release Time) 和 起 始 时 间 正 好 相反 ， 它 决定 了 压缩 器 
在 低 于 门限 信号 多 长 时 间 之 后 停止 工作 ， 如 果 释 放 时 间 过 短 ， 那 么 在 
言 号 低 于 门限 之 后 ， 压 缩 器 会 立即 停止 工作 ， 束 会 导致 抽 泵 现象 ， 声 
首 听 起 来 会 非常 不 舒服 。 


最 后 一 个 参数 就 是 输出 增益 (Output Gain) ， 即 增益 补偿 ， 比 如 
我 们 压缩 了 3dB 的 增 巷 ， 然 后 使 用 增 益 补 修 提升 了 整个 输出 信号 ， 束 可 
以 将 压缩 挥 的 动态 空间 补偿 回来 。 


明白 了 以 上 参数 之 后 ， 下 面 使 用 Audacity 工 具 打 开 一 个 音频 文件 ， 
然后 在 特效 的 末日 中 选择 压缩 絮 ， 如 图 8-23 所 示 。 


@@© 动态 范围 压缩 右 

0dB 
-12dB 
-18dB 
-24dB 
-30dB 
-36dB 
-42dB 
-48dB 
-$4dB 

-60dB -48dB -36dB -24dB -12dB 0dB 

闪 值 : 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 J 一 -12dB 

噪声 底 ; 一 一 一 一 一 -40dB 

比率 ;一 10:1 

上 升 有 时间:， 开 汪 一 一 一 一 一 一 一 一 02 秒 

衰减 时 间 :， 人 全 一 一 一 一 一 一 一 一 一 10 秒 

压缩 后 增长 到 odB ” 口 给 予 峰 值 压缩 
CV) 而 是 (9) 


NN 


图 8-23 


在 图 8-23 中 ， 参 数 噪声 确 可 以 不 用 去 管 ， 其 余 可 以 调整 的 参数 包括 
出 值 (上 面 所 讲 的 门限 值 ) 、 比 率 〈 压 缩 比 ) 、 上 升 时 间 
(AttackTime) 、 豪 减 时 间 (releaseTime) ， 而 压缩 后 增长 到 0dB 就 是 
上 面 所 讲 的 输出 增益 ， 我 们 可 以 自己 调节 这 几 个 参数 来 观察 曲线 的 变 
化 ， 点 击 预 览 可 以 试听 效果 ， 如 果 效 果 满 意 ， 点 击 确 定 可 以 将 压缩 器 
作用 到 音频 文件 中 。 

在 日 党 工作 中 ， 压 缩 器 可 以 以 多 种 其 他 效果 絮 的 形式 出 现 ， 但 是 


原理 都 是 一 样 的 ， 比 如 上 面 所 提 到 的 峰值 限制 器 (Peak Limiter) ， 将 
压缩 比 调整 到 足够 大 (一 般 我 们 认为 压缩 比率 在 20:1 以 上 的 压缩 器 束 是 


限制 器 的 压缩 效 采 器 束 是 一 个 峰值 限制 器 。 除 此 之 外 ， 层 齿 音 消除 

器 (De-Esser) 也 是 一 种 应 用 场景 ， 因 为 唇齿 音 一 般 都 是 /ci/、/si/ 等 高 
频 的 声音 ， 频 率 范围 一 般 为 4~8kHz， 做 一 个 可 调频 率 的 压缩 效果 器 来 
压缩 特定 的 频率 ， 可 以 将 这 些 人 声 中 的 噶 噶 声 衰 减 掉 ， 从 而 达到 悦耳 

的 效果 。 另 外 还 有 噪声 门 (Nosie Gate) 也 是 压缩 器 的 一 种 应 用 场景 

即 我 们 规定 一 个 门限 值 ， 门 限 以 上 的 声 普 可 以 通过 , |] 限 以 下 的 声音 

馈 视 为 噪 首 被 完全 切 掉 ， 这 也 是 压缩 效 灯 占 的 为 外 一 种 特殊 应 用 场 


分 \ 


8.4.3 ” 混 啊 效果 髓 


混 响 效果 器 又 称 为 混 响 器 (Reverb) ， 但 在 介绍 混 响 效果 器 之 前 
先 讨论 一 下 什么 是 混 响 。 大 部 分 场景 下 都 会 产生 混 响 ， 我 们 可 以 设想 
老师 讲课 的 一 个 场景 ， 老 师 的 声音 经 过 多 次 反射 ， 假 如 有 5 条 声音 反射 
线 (实际 上 有 成 千 上 万 条 ) 到 达 学 生 耳 洒 ， 老 师 每 说 1 句 话 ， 学 生 实际 
上 听 到 的 就 是 6 句 话 (1 句 话 直接 传 到 学 生 耳 杂 里 ， 还 有 反射 的 5 句 
话 ) ， 但 是 由 于 这 些 反射 声 到 达 的 时 间 间 隔 太 近 ， 所 以 学 生 实际 上 分 
辨 不 出 6 句 话 ， 而 是 1 句 带 有 混 响 感觉 的 话 。 混 响 效 果 器 就 是 这 样 工作 
的 ， 把 很 多 路 声音 (由 于 经 过 不 同 的 反射 源 反射 ， 所 以 能 量 不 同 ) 进 
行 很 多 次 的 释 加 (因为 反射 的 距离 有 长 有 短 ， 所 以 到 达 听 者 耳 条 的 时 
间 不 同 ， 又 加 的 时 间 也 不 同 ) 。 混 响 器 就 是 接受 一 个 输入 的 声音 ， 然 
后 进行 某 种 计算 ， 就 可 以 达到 6 种 声音 (实际 上 是 成 千 上 万 种 声音 ) 受 
加 的 效果 。 这 里 所 谓 的 某 种 计算 在 数学 中 叫做 < 卷 积 "计算 ， 英 文 
是 <convolution”。 如 果 把 老师 的 声音 看 作 一 个 单一 的 脉冲 ， 通 过 计算 之 
后 得 到 一 个 完整 的 声波 ， 如 图 8-24 所 示 。 


0.5 
0.3 


0.0 | po oe | ote Epes | 和 二 RN mh | 1 
2 | 


一 人 .3 


图 8-24 


在 图 8-24 所 示 的 这 个 脉冲 图 中 就 含有 6 个 脉冲 (实际 上 是 成 千 上 万 
个 脉冲 的 声波 ， 也 束 是 在 这 个 房间 里 ， 从 老师 到 学 生 座 位 的 混 啊 特 
征 。 在 声学 上 ， 由 于 这 个 混 啊 特征 是 由 脉冲 得 到 的 ， 所 以 称 为 脉冲 反 
应 ， 即 impulse response， 丛 称 IR。 很 显然 ， 在 不 同 的 空间 里 这 个 脉冲 
图 并 不 相同 ， 世 就 是 说 ， 不 同 空间 里 的 混 啊 特征 不 同 ， 更 进一步 也 说 
束 是 不 同 空 间 里 的 IR 不 同 。 我 们 将 一 个 输入 声 疼 作 为 源 声 首 ， 这 个 声 
音 通过 与 IR 卷 积 得 到 的 结果 束 是 这 个 声音 源 在 这 个 混 响 空间 内 所 产生 


的 最 终 寓 啊 结 采 。 其 实 ， 儿 乎 在 任何 场景 下 都 会 产生 混 啊 ， 只 不 过 有 
一 些 混 啊 效果 在 人 的 耳 赤 里 不 太 容易 分 辨 ， 像 比较 专业 的 录音 棚 里 ， 
墙壁 上 做 了 很 多 突出 的 吸音 棉 ， 可 以 最 大 限度 地 减 小 寓 啊 的 影响 ， 而 
在 宴 音 阶段 再 给 作品 增加 宴 啊 。 


在 浴室 中 发 出 一 个 声音 ， 最 终 我 们 听 到 的 声 普 其 实 是 代表 浴室 这 
个 空间 的 混 响 特征 。 在 小 礼堂 里 ， 或 者 在 一 个 非常 开阔 的 大 舞台 上 唱 
歌 ， 听 到 的 混 啊 效 末 肯定 不 同 。 辟 之， 每 个 空间 都 有 目 己 独 特 的 混 啊 
等 征 ， 也 束 是 有 目 己 独特 的 IR。 为 了 模拟 出 各 个 空间 的 混 啊 效果 ， 也 
束 是 为 了 定制 出 不 同 的 场景 混 啊 ， 我 们 可 以 制定 不 同 场景 下 的 IR， 然 
后 将 声音 源 与 特定 场景 下 代表 的 HR 进行 卷 积 ， 这 样 就 可 以 得 到 这 个 场 
景 下 的 寓 啊 效 末 。 那 如 何 确 定 特定 场景 下 的 IR 呢 ? 


第 一 种 就 是 采样 了 及 混 啊 ，Sony、Yamaha 都 出 过 采样 混 啊 。 采 样 混 
啊 全 部 是 真实 采样 得 来 的 wave 文 件 ， 可 以 存放 在 任何 存储 器 ， 采 样 混 
啊 的 IR 都 由 录音 采样 得 来 。 在 想 要 获得 混 啊 特征 的 地 方 ， 例 如 小 礼 
膏 、 音 乐 厅 舞台 上 安置 音箱 ， 座 位 司 中 安置 立体 声 话 简 ， 然 后 播放 一 
系列 测试 信号 ， 以 脉冲 信号 为 主 ， 各 种 速度 的 全 频段 正弦 波 连续 扫描 
为 辅 ， 录 得 声音 ， 然 后 经 过 计算 得 到 IR。 用 这 种 采样 方法 得 到 的 IR， 
是 最 真实 也 是 效果 最 好 的 一 种 ， 当 然 这 种 IR 的 制作 也 是 极为 昂贵 的 。 


第 二 种 就 古 算 法 混 啊 ， 也 是 最 常见 的 混 啊 效 末 髓 ， 目 前 大 多 数 数 
字 混 啊 效 朱 需 以 及 软件 混 啊 都 是 这 种 类 型 的 。 这 类 混 啊 融 虽 然 不 市 有 
真实 的 IR， 但 是 提供 了 很 多 方法 让 你 对 它 上 自 带 的 原始 脉冲 序列 进行 修 
改 ， 比 如 通过 改变 空间 大 小 、 早 反射 时 间 、 衰 减 时 间 、 阻 尼 等 参数 来 
修改 I 民 ， 以 达到 控制 混 啊 效果 的 目的 。 为 了 性 能 的 考虑 ， 这 种 IR 的 脉 
冲 个 数 旦 有 限 的 ， 并 不 会 像 第 一 种 采样 寝 啊 中 有 无 限 的 脉冲 信号 。 


为 了 方便 人 研究， 声学 上 把 混 响 分 为 几 个 部 分 ， 并 规定 了 一 些 习 惯 
用 语 。 混 响 的 第 一 个 声音 是 直达 声 (Direct Sound) ， 也 就 是 源 声音 ， 
在 效果 器 里 叫 dry out ( 干 声 输出 ) ， 随 后 的 几 个 相隔 比较 开 的 声音 
叫 “ 早 反射 声 ”(Early Reflected Sounds) ， 它 们 都 是 只 经 过 几 次 反射 就 
到 达 的 声音 ， 声 音 比 较 大 ， 比 较 明 显 ， 它 们 能 够 反映 空间 中 的 源 声 
音 、 耳 条 及 墙壁 之 间 的 距离 关系 。 后 面 的 一 堆 连 绢 不 绝 的 声音 叫做 
reverberation。 大 多 数 混 啊 歼 果 器 会 有 一 些 参 数 选项 给 你 调 闻 ， 现 在 吏 
来 讲 讲 这 些 参数 的 具体 意义 。 


(1) 空间 大 小 (Room Size) 


空间 可 以 体现 出 声场 的 宽度 和 纵深 度 ， 不 同 的 效果 器 在 该 参数 上 
有 不 同 的 算法 体现 ， 且 该 参数 非常 重要 。 


(2) 余 响 大 小 (Reverbrance) 


如 条 早 反射 声 可 以 决定 至 间 的 距离 ， 那 么 余 啊 可 代表 至 间 的 构 
造 ， 即 空间 里 的 物体 多 少 、 墙 壁 的 材质 、 墙 壁 及 室内 物体 的 表面 材质 
越 松 软 ， 代 表 吸 音 的 能 力 越 强 ， 余 啊 越 小 。 


(3) 阻尼 控制 (Damping) 


咀 尼 控制 代表 混 啊 声音 减弱 的 程度 ， 对 应 到 实际 场景 中 就 是 场景 
里 的 物体 多 少 。 物 体 越 多 ， 且 物体 表面 越 不 光 请 ， 袁 减 就 越 历 害 ， 可 
以 根据 我 们 想 要 得 到 的 实际 场景 去 设置 这 个 参数 。 


(4) 王 湿 比 (Dry Wet Mix Ratio) 
有 的 混 啊 算法 会 有 这 个 参数 ， 十 信号 表示 原始 信号 ， 湿 信和 号 表示 
竟 啊 信号 ， 而 干 演 比 束 是 代表 最 终 输 出 信号 的 干 声 和 湿 声 的 比例 。 设 
置 为 100%， 则 意味 着 只 要 温 声 不 要 干 声 。 

(5) 立体 声 宽度 (Stereo Width) 


有 的 混 啊 效果 需 有 这 样 的 参数 ， 如 采 把 这 个 值 设 大 ， 那 么 效果 郁 
在 产生 IR 的 时 候 会 使 左右 声 道 差异 变 大 ， 最 终 就 会 产生 立体 声 的 感 


觉 


和 前 面 的 操作 一 样 ， 也 是 打开 Audacity， 在 特效 荣 单 中 选择 
Reverb， 如 图 8-25 所 示 。 


Room Size (%): 
Pre-delay (ms): 
Reverberance (%): 
Damping (%): 
Tone Low (%): 
Tone High (%): 
Wet Gain (dB): 


Dry Gain (dB): 


目 和 加 和 加 上 目 和 目 利和 国有 目 和 日 
cs: 《有 


Stereo Width (%): 
[| Wet Only 
预 设 : User settings: 


十 | | 载 入 间 保存 1 Rename | 


| 预览 (V) | | Dry Preview | 取消 (C) 


图 8-25 


在 图 8-25 中 ， 可 以 看 到 一 些 可 调节 的 参数 ， 这 些 参数 前 面 已 经 都 一 
一 介绍 过 了 ， 大 家 可 以 自己 调节 参数 进行 预览 ， 并 且 可 以 点 击 Dry 
preview 来 预览 干 声 ， 最 后 点 击 “确定 ”按钮 ， 即 可 将 这 个 混 响 效 果 器 作 
用 到 音频 文件 上 。 


接 下 来 讲解 如 何在 这 两 个 平台 上 实现 这 些 效果 器 。 


8.5 将 朱 碾 实 现 


第 8.4 市 已 经 介绍 了 各 个 混 音 效果 器 的 作用 ， 本 厄 将 讲解 如 何在 
0 台 上 实现 各 效果 器 ， 并 最 终 集 成 到 我 们 的 App 中 


8.5.1_ Android 平台 实现 效果 需 


在 Android 平 台 上 实现 效 末 右 有 很 多 种 方法 ， 如 来 我 们 从 涉 开始 一 
个 一 个 去 书写 ， 显 然 不 是 一 种 合理 的 方案 。 我 们 应 该 寻找 优秀 的 开源 
仓库 实现 这 三 种 类 型 的 效果 器 ， 比 如 sox 开 源 库 ， 它 在 音频 处 理 界 是 一 
个 非常 优秀 的 框架 ， 号 称 音频 处 理 窜 的 瑞士 军刀 。 


1.sox 编 译 与 命令 行使 用 


sox 是 最 为 著名 的 声 首 处 理 开源 库 ， 已 经 被 广泛 移植 到 Windows、 

Linux、Mac OS X 等 多 个 平台 。sox 项 目 是 由 Lance Norskog 创 立 的 ， 后 
被 傣 多 开发 者 逐步 完善 ， 现 在 已 经 能 够 文 持 很 多 种 声音 文件 格式 和 处 
理 声 首 效 果 。 它 默认 支持 的 输入 /输出 是 WAV 文 件 ， 如 果 想 要 支持 MP3 
等 格式 ， 需 要 预先 安 效 libmp3lame 库 来 支持 这 种 格式 的 编码 与 解码 。 本 
帮会 先 下 载 这 个 库 的 源码 ， 并 编译 出 二 进 制 的 命令 行 工 具 ， 然 后 再 使 
用 里 面 的 三 种 效果 器 。sox 的 源码 放 在 Source-Forge 上 ， 主 页 在 如 下 的 链 
搂 中 : https://sourceforge.net/projects/sox/° 


进入 sox 的 主页 之 后 ， 找 到 Code 目 了 永 ， 下 载 整个 源码 目 永 ， 再 使 用 
git 将 整个 目 孙 clone 下 来 。 因 此 先 建立 一 个 sox 目 未， 然后 进入 这 个 目录 
中 ， 执 行 如 下 命令 : 


git clone https:// git.code.sf.net/p/sox/code sox-code 


当 上 面 这 一 行 命 令 执行 结束 后 ， 进 入 sox-code 目 杂 ， 可 以 看 到 仓库 
的 源码 已 经 全 部 被 下 载 下 来 ， 接 下 来 的 工作 就 古 将 源码 编译 成 为 二 进 
制 命令 行 工 具 。 先 查看 源码 目录 下 的 INSTALL 文 件 ， 这 个 文件 指明 ， 
如 采 要 编译 的 源 ( 即 代 码 仓 库 ) 是 使 用 git 下 载 的 源码 ， 则 要 先 执行 如 


下 命令 ， 


autoreconf -i 


这 个 命令 执行 完毕 后 ， 会 在 源码 目录 下 生成 configure、install-sh 等 
文件 。 由 于 要 编译 最 基本 的 sox 的 二 进 制 命令 行 工具 出 来 ， 所 以 应 建立 


一 个 Shell 脚 本 config_pc.sh， 键 入 以 下 代码 : 


#!/bin/bash 

CWD= pwd ~ 

LOCAL=$CWD 

./configure \ 
--prefix="$LOCAL/pc_l1ib" \ 
--enable-static \ 
--disable-shared \ 
--disable-openmp \ 
--without-libltdl \ 
--Wwithout-coreaudio 


然后 给 config_pc.sh 及 configure 添 加 执行 权限 ， 并 在 源码 目录 下 
面 ， 新 建 pc_lib 目 录 ， 最 终 执行 这 个 Shell 脚 本 文件 : 


./config_pc.sh 


当 shell 脚 本 执行 结束 后 ， 代 表 配 置 结束 ， 接 下 来 就 可 以 执行 安装 


令 T: 


Ey 


make && make install 


执行 成 功 后 ， 进 入 pc_lib 目 录 下 ， 可 以 看 到 这 个 目录 里 被 安装 脚本 
生成 了 bin、1lib、include 等 目 孙 。 进 入 bin 目 未 ， 可 以 看 到 play、rec、 
sox 等 二 进 制 文件 ， 其 中 ，sox 束 是 我 们 要 运行 的 二 进 制 命令 行 工具 ， 而 
play 则 可 以 在 处 理 的 同时 直接 播放 一 个 音频 文件 ， 类 似 于 FFmpeg 中 的 
ffplay 工 具 。 人 至 于 rec， 则 是 录制 声 普 的 工具 。 由 于 我 们 在 config_pc.sh 中 
天 闭 了 硬件 设备 的 配置 选项 ， 所 以 play 和 和 record 工 具 不 能 使 用 ， 只 使 用 
SoX 来 处 理 音 频 文 件 ， 输 入 WAV 格 式 的 音频 文件 ， 输 出 WAV 格 式 的 音频 
， so 二 进 制 命令 行 工 具 对 输入 文件 分 别 完成 前 面 提 到 

二 种 六 器 o 


首先 是 均衡 效果 器 。 前 面 已 介绍 过 均衡 器 的 参数 设置 ， 整 个 参数 
可 分 为 N 组 参数 ， 每 组 参数 代表 对 具体 频率 的 增强 或 者 减弱 ， 每 组 参数 
包括 频率 、 频 带宽 度 和 增益 。sox 的 均衡 器 参数 设置 也 一 样 ， 来 看 下 面 


a ? 全 -人 
这 条 命令 : 


sox song.wav Song_ed,wav equalizer 89.5 1.5q 5.8 equalizer 120 2.0q -5 


上 上 面 这 条 命令 的 前 两 个 参数 分 别 代表 输入 文件 和 输出 文件 ， 它 们 
后 面 有 两 个 均衡 器 ， 第 一 个 均衡 器 的 中 心 频率 为 89.5Hz， 频 市 宽度 为 
1.5q， 增 加 5.8dB 的 能 量 ， 第 二 个 均衡 器 的 中 心 频率 为 120Hz， 频 市 宽度 
为 2.0q， 减 少 5dB 的 能 量 。 如 果 想 给 声 首 多 作用 几 个 均衡 器 ， 在 后 面 依 
次 添加 几 组 就 可 。 答 执行 完 命 令 之 后 ， 可 以 试听 输出 文件 的 效果 ， 或 
者 使 用 Audacity 软 件 打开 处 理 前 和 处 理 后 的 音频 文件 ， 使 用 频谱 图 观察 
处 理 前 后 的 频谱 分 布 的 变化 。 


其 次 是 压缩 歼 采 证。 表面 也 介绍 过 压缩 右 的 设置 ， 整 个 参数 包 丘 
门限 值 、 压 缩 比 、Attack Time、Decay Time 等 ，sox 中 的 压缩 效果 圳 使 
用 库 中 的 compand 来 实现 ， 来 看 下 面 这 条 命令 : 


sox song.wav song_compressor ,wav compand 0.3,1 
-100, -140, -85, -100, -70, -60, -55, -50, -40, -40, -25, -25,0, -20 © -100dB 0.1 


以 上 这 条 命令 的 前 两 个 参数 分 别 代 表 输 入 文件 和 输出 文件 ; 
compand 代 表 效 果 器 的 名 称 ， 在 sox 中 使 用 compand 效 果 需 来 实现 压缩 - 
扩展 器 (Compressor-Expander) 。 后 面 的 参数 以 空格 分 开 ， 首 先是 0.3 
和 1， 分 别 代表 Attack Time 和 Decay Time; 接 下 来 的 一 组 参数 代表 压缩 
器 的 转换 函数 表 ， 每 个 数值 的 单位 都 是 4B。 继 续 来 看 0、-100、0.1 这 三 
个 参数 ， 第 一 个 0 代表 增益 ， 即 压缩 完毕 后 可 以 将 整体 增益 作用 到 输出 
上 ， 不 再 给 任何 增益 了 ; 第 二 个 -100 代 表 初 始 音量 ， 可 以 设置 成 
为 -100d4B， 代 表 初 始 音量 从 一 个 几乎 为 静音 的 音量 开始 ， 第 三 个 0.1 代 
表 延 迟 量 。 在 实际 的 音频 处 理 场 景 中 ， 压 缩 右 对 于 声音 的 忽然 升 高 有 
很 好 的 抑制 作用 。 


现在 来 看 由 压缩 融 转 换 函 数 表 绘 制 出 的 压缩 曲线 ， 如 岁 8-26 所 示 。 


一 一 压缩 转换 曲线 一 一 下 常 输出 
图 8-26 


在 图 8-26 ( 见 彩 插 ) 中 ， 红 色 直 线 为 一 条 斜率 为 1 的 直线 ， 实 际 上 
是 不 作 任何 处 理 的 曲线 ; 瘟 色 曲线 惑 是 我 们 的 庄 缩 曲线 。 监 色 曲 线 分 
为 四 部 分 ， 从 中 可 以 看 到 ， 在 能 量 比 较 低 的 部 分 〈-100~-80dB) 可 将 
输出 能 量 降 低 ， 相 当 于 将 底部 噪声 部 分 压低 ， 中 间 能 量 部 分 (-75 
~-45dB) 有 所 提升 ;一 部 分 〈-40~-25dB) 保持 不 变 ， 即 蓝 色 曲线 和 
红色 曲线 重合 ， 对 比较 高 能 量 部 分 -20~0dB) 进行 压缩 处 理 ， 形 成 
整个 曲线 。 当 然 ， 输 入 /输出 点 数 越 多 ， 曲 线 就 会 越 平 滑 ， 得 到 的 声音 
效果 束 会 越 好 。 大 家 可 以 试听 经 过 压缩 右 处 理 完 后 的 声 首 ， 是 不 十 宽 
得 整个 音量 的 动态 变化 范围 被 压缩 了 呢 ? 这 束 是 压缩 效果 器 的 作用 。 


最 后 是 混 啊 效 末 话 。 混 响 右 的 参数 表面 已 详细 介绍 过 。 下 面 来 看 
如 何 使 用 sox 给 声音 增加 混 啊 ， 命 令 如 下 : 


sox song.wav Song_reverb ,wav reverb 50 50 90 50 30 


其 中 ， 第 一 个 参数 是 reverbrance， 即 余 啊 的 大 小 ， 可 以 设置 为 50 试 
听 效 果 ; 第 二 个 参数 是 HF-damping， 即 高 频 阻 尼 ， 可 以 设置 为 50; 第 
三 个 参数 是 room-scale， 即 房间 大 小 ， 可 以 设置 为 0， 代表 一 个 比较 大 
的 房间 ; 第 四 个 参数 代表 立体 声 深度 ， 设 置 越 大 ， 代 表 立 体 声 效果 越 


明显 ， 这 里 设置 为 50; 最 后 一 个 参数 是 pre-delay， 即 是 反射 声 的 时 间 ， 
单位 为 曼 秒 ， 这 里 设置 为 30ms。 执 行 守 以 上 命令 后 ， 恋 痢 再 试听 处 理 
完 的 声音 ， 会 发 现 有 比较 明显 的 混 啊 效果 了 。 


介绍 了 如 何 编译 sox， 以 及 使 用 sox 二 进 制 命令 行 工具 ， 下 面 将 
0 并 且 介 绍 其 SDK 的 使 用 。 


2.Sox 的 交叉 编译 


这 里 会 介绍 将 sox 交 叉 编 译 到 Android 平 台 ， 并 且 介 绍 如 何在 
Android 平 台 使 用 sox 的 SDK 来 使 库 中 的 效果 句 工 作 。 首 先 ， 将 sox 这 个 
开源 库 交 叉 编译 出 一 个 静态 库 以 及 头 文件 ， 以 方便 我 们 在 Android 的 
NDK 开 发 的 编译 阶段 和 链接 阶段 分 别 引 用 。 新 建立 config_armv7a.sh ， 
键入 以 下 代码 ， 以 编译 出 静态 库 与 头 文件 : 


#!/bin/bash 
NDK_BASE=/Users/apple/soft/android/android-ndk-r9b 
NDK_SYSROOT=$NDK_BASE/platforms/android-8/arch-arm 
NDK_TOOLCHAIN_ BASE=$NDK_BASE/toolchains/arm-linux-androideabi-4.6/prebuilt/darw 
in-x86_64 

CC="$NDK_TOOLCHAIN_BASE/bin/arm-linux-androideabi-gcc --sysroot=$NDK_SYSROOT" 
LD=$NDK_TOOLCHAIN BASE/bin/arm-linux-androideabi-1d 
CWD= pwd ~ 
PROJECT_ROOT=$CWD 
./configure \ 

--prefix="$PROJECT_ROOT/l1ib/armv7" \ 

CFLAGS="-02" \ 

CC="$CC™" \ 

LD="$LD" AN 

--target=armv7a \ 

--host=arm-linux-androideabi \ 

--with-sysroot="$NDK_SYSROOT" \ 

--enable-static \ 

--disable-shared \ 

--disable-openmp \ 

--without-1libltdl 


然后 执行 config_armv7a.sh (如 果 没 有 执行 权限 ， 则 要 加 上 执行 权 
限 ) ， 可 以 看 到 在 当前 目录 的 lib 目 录 下 有 一 个 armv7 目 录 ，armv7 日 录 
中 会 有 我 们 非常 熟悉 的 include、1lib 目 了 永 ， 里 面 就 有 我 们 需要 的 头 文件 
soxh 与 静态 库 文 件 libsox.a 至 此 交叉 编译 工作 完成 。 接 下 来 看 看 如 何 
使 用 sox 库 中 提供 的 API 在 代码 层面 使 用 各 种 效果 需 


3.SDK 介 绍 


要 使 用 sox 库 中 提供 的 API， 就 要 从 它 的 官方 实例 中 开始 ， 从 sox 的 
根 目 永 进入 src 目 永 ， 在 src 目 未 下 有 几 个 以 example 开 头 的 C 文 件 ， 这 职 
是 提供 给 开发 者 参考 的 Demo。 打 开 example0.c 这 个 文件 可 以 看 到 ， 该 
文件 的 开头 引用 了 sox.h 头 文件 。 然 后 看 一 下 main 函 数 ， 因 为 使 用 API 的 
流程 都 在 main 芳 数 中 。 在 使 用 sox 库 之 前 ， 必 须 初始 化 整个 库 的 一 些 全 
局 参数 ， 需 要 调用 如 下 代码 : 


sox_init(); 


上 述 函 数 返 回 一 个 整数 ， 如 果 返 回 的 是 SOX_SUCCESS 这 个 枚 举 
值 ， 则 代表 初始 化 成 功 了 。 在 整个 应 用 程序 中 ， 如 果 没 有 调用 sox_quit 
方法 ， 那 么 不 可 以 再 一 次 调用 sox_init， 否 则 会 造成 Crash。 接 下 来 初始 
化 输入 文件 ， 代 码 如 下 : 


sox_format_t* in; 
const char* input_path = "/Users/apple/input .wav"; 
in = sox_open_read(input_path, NULL, NULL, NULL); 


初始 化 好 了 输入 文件 之 后 ， 再 来 初始 化 输出 文件 ， 代 码 如 下 : 


sox_format_t* out ， 
const char* output_path = "/Users/apple/output .wav"， 
out = sox_open write(output_path, &in->signal, NULL, NULL, NULL, NULL); 


切 始 化 好 了 输出 文件 后 ， 束 可 以 看 到 输入 文件 和 输出 文件 者 十 
WAV 格 式 的 ， 因 为 我 们 并 没有 集成 其 他 编码 格式 的 工具 ， 所 以 是 直接 
用 的 WAV 格 式 。sox 中 提供 的 效果 万 种 类 较 多 ， 为 了 方便 开发 者 使 用 ， 
sox 使 用 类 似 责 任 链 设计 模式 的 方式 设计 整个 系统 ， 所 以 使 用 时 需要 先 
构造 一 个 效果 郁 链 ， 然 后 将 要 使 用 的 效果 亏 一 个 一 个 地 加 到 这 个 效果 
链 中 ， 最 终 传 入 输入 文件 中 的 数据 以 及 接受 这 个 效果 着 链 处 理 完 的 数 
， 就 可 以 完成 首 效 的 处 理工 作 。 先 来 构造 这 个 效果 器 链 ， 代 码 如 


sox_effects_chain _t* chain; 
chain = sox_create effects_ chain(&in->encoding, &out->encoding); 


上 述 代 码 构造 出 了 一 个 效果 器 链 ， 重 点 来 看 里 面 的 两 个 参数 ， 这 
两 个 参数 实际 上 就 是 告诉 效果 器 链 输 入 音频 的 数据 格式 和 输出 音频 的 
数据 格式 ， 比 如 声 道 、 采 样 率 、 表 示 格 式 等 。 我 们 可 以 从 最 开始 初始 
化 的 输入 文件 格式 和 输出 文件 格式 中 拿 到 数据 格式 ，sox 会 存储 到 
encoding 属 性 中 。 接 下 来 要 问 效果 亏 链 中 增加 效 末 右 了 ， 但 是 在 增加 实 
际 的 效果 器 之 前 ， 我 们 要 移 考 虑 一 个 问题 ， 就 是 如 何 将 输入 音频 数据 
提供 给 效果 硕 链 ， 以 及 如 何 将 效果 需 链 处 理 完 的 音频 数据 写 入 文件 
中 。 对 于 这 个 问题 ，sox 已 经 帮 我 们 提供 了 对 应 的 API， 为 了 方便 开发 
者 ，sox 的 作者 把 输入 和 输出 分 别 构造 成 了 一 个 特殊 的 效果 郁 ， 行 我 们 
创建 出 提供 输入 数据 的 效果 器， 就 添加 到 效果 器 链 的 第 一 个 位 置 ; 然 
后 创建 出 输出 数据 的 效果 器， 添加 到 效果 顺 链 的 最 后 一 个 位 置 上 。 


人 
中: 


sox_effect_t* inputEffect; 
inputEffect = sox_create effect(sox_ find effect("input")); 


上 述 代 码 构 寺 出 了 一 个 用 于 给 效 末 融 链 输入 数据 的 特殊 效 来 骨 ， 
但 是 这 个 竺 殊 效 果 峰 的 数据 从 哪里 来 呢 ? 答案 就 是 上 面 初始 化 的 输入 
文件 ， 因 此 我 们 要 将 输入 文件 配置 到 这 个 效果 右 中 ， 代 码 如 下 : 


char* args[10]; 
args[0] = (char*) in; 
sox_effect_options(inputEffect, 1, args); 


可 以 看 到 上 述 代 码 将 之 前 构造 的 输入 文件 格式 的 结构 体 强 制 较 化 
为 了 char 指 针 类 型 的 参数 ， 并 配置 给 了 效果 絮 ， 而 在 sox 中 都 古 以 char 指 
针 类 型 的 参数 来 配置 效果 器 的 。 配 置 好 了 后 ， 要 将 这 个 效 来 髓 增加 到 
效果 大 链 中 ， 并 且 将 这 个 效 琳 右 释 放 授 ， 代 码 如 下 : 


sox_add_effect(chain, inputEffect, &in->signal, &in->signal); 
free(inputEffect); 


至 此 给 效果 器 链 提供 输入 数据 的 特殊 效果 右 束 已 经 创建 成 功 ， 并 
且 进 行 了 配置 ， 最 终 成 功 添加 到 了 戏 琳 右 链 中 ， 这 个 过 程 也 赴任 何 一 
个 效果 器 从 创建 到 配置 到 添加 到 销毁 的 整个 过 程 。 


接 下 来 是 我 们 想 要 使 用 的 最 核心 的 效果 器 部 分 ， 这 里 以 一 个 非常 
简单 的 增加 音量 的 效果 器 为 例 进 行 讲解 ， 添 加 如 下 代码 : 


SOX_effect_t* VolEffect ， 

volEffect = SOX_create_effect(Sox_find_effect("vVol") )， 
args[0] = "3dB"， 

sox_effect_options(volEffect, 1, args); 
sox_add_effect(chain, volEffect, &in->signal, &in->signal); 
free(VolLEffect ) ， 


从 以 上 代码 可 以 看 到 ， 音 量 效果 器 给 整个 音频 文件 增加 了 3 个 dB 的 
首 量 。 虽 然 整个 过 程 比较 简单 ， 但 是 也 有 的 读者 可 能 会 问 ， 吞 想 使 用 
一 个 效果 器 ， 从 哪里 可 以 找到 这 个 效果 器 的 名 称 昵 ?其 实 所 有 效果 如 
的 名 称 都 被 定义 在 effects.h 这 个 头 文件 中 ， 读 者 可 以 目 己 去 碍 阅 。 


接 下 来 配置 另外 一 个 比较 特殊 的 效果 器 ， 即 接受 效果 器 链 处 理 完 
的 数据 ， 并 将 数据 输出 到 文件 中 的 效 采 器 ， 代 码 如 下 : 


sox_effect_t* outputEffect; 

outputEffect = sox_create effect(sox_find_ effect("output")); 
args0 = (char*)out; 

sox_effect_options(outputEffect, 1, ags); 
sox_add_effect(chain, outputEffect, &in->signal, &in->signal); 
free(outputEffect ) ， 


上 述 代码 也 比较 简单 ， 主 要 是 把 前 面 所 构造 的 输出 文件 配置 给 
output 这 个 特殊 效果 器 ， 最 终 再 将 效果 器 添加 到 整个 效果 器 链 中 。 至 此 
这 个 效果 器 链 就 已 经 构造 好 了 ， 整 个 结构 如 图 8-27 所 示 。 


Effect_chain 


Input 


Input.wav Output.wav 


图 8-27 


构造 好 了 这 个 效 末 絮 链 后 ， 如 何 让 整个 效果 右 链 运行 起 来 呢 ? 其 
实 也 很 简单 ， 只 需要 执行 以 下 代码 ; 


sox_flow _ effects(chain, NULL, NULL); 


这 个 方法 执行 结束 ， 整 个 处 理 流程 也 就 结束 了 ， 经 过 核心 效果 器 
-声音 变化 效果 器 处 理 之 后 的 音频 数据 就 被 全 部 写 入 outputwav 文 件 
中 了 。 当 然 ， 完 成 之 后 要 销毁 掉 这 个 效果 器 链 


Sox_delete_effects_chain(chain)， 


然后 关闭 输入 文件 和 输出 文件 ， 代 码 如 下 : 


sox_close(out); 
sox_close(in),; 


最 后 释放 sox 库 里 的 全 局 参数 ， 代 码 如 下 : 


sox_quit(); 


至 此 ， 可 以 使 用 sox 提 供 的 SDK 来 处 理 首 频 文件 了 。 
4. 均 衡器 的 实现 
下 面 介绍 如 何 使 用 sox 的 均衡 项 。 前 面 已 经 介绍 过 在 命令 行 工具 中 


如 何 使 用 均衡 效 末 各， 有 了 前 面 的 基础 ， 我 们 融 可 以 知道 如 何 编写 出 
本 世 的 代码 ， 如 下 : 


sox_effect_t* e; 
e = sox_create effect((sox_find_ effect("equalizer"))); 


首先 根据 均衡 需 的 名 字 创 建 出 效果 器 ， 然 后 使 用 中 心 频 率 、 频 带 
宽度 ， 以 及 增益 来 配置 这 个 效果 器 ， 代 码 如 下 : 


char* frequency = "300",，; 

char* bandwidth = "1.25q"; 

char* gain = "3dB"，; 

char* args[] = {frequency, bandwidth, gain}; 
int ret = sox_effect_ options(e, 3, args); 


由 于 均衡 器 的 参数 有 3 个 ， 所 以 这 里 配置 画 数 的 第 二 个 参数 传递 
3， 待 执行 完 这 个 配置 函数 后 ， 若 返回 的 ret 是 SOX_SUCCESS， 则 代表 
配置 成 功 。 最 后 将 这 个 效果 器 添加 到 效果 器 链 中 ， 代 码 如 下 : 


sox_add_effect(chain, e, &in->signal, &in->signal); 
free(e); 


至 此 ， 已 将 一 个 均衡 器 加 入 效果 絮 链 中 了 ， 但 是 一 般 情况 下 会 有 
多 个 均衡 器 同时 作用 到 首 频 上 ， 如 果 有 多 个 均衡 器， 则 创建 多 个 均衡 
苍 ， 并 依次 添加 到 效 末 右 链 中 。 


一 般 情 况 下 ， 我 们 在 处 理 音频 的 时 候 ， 还 会 加 上 高 通 和 低 通 ， 类 
似 于 均衡 器 ， 也 属于 滤波 右 。 高 通 就 是 高 频率 的 声音 可 以 通过 这 个 滤 
流 右 ， 低 频率 的 声音 就 被 过 滤 挥 ， 有 为 外 一 种 叫 法 就 古 低 切 。 低 通 整 
征 高 通 的 逆 过 程 ， 也 称 为 高 切 。 这 里 只 展示 高 通 滤波 器 ， 人 代码 如 下 : 


sox_effect_t* e; 

e = sox_create effect(sox_find_ effect("highpass")); 
char* frequency = "80",; 

char* width = "0.5q"; 

char* args[] = {frequency, width},; 
sox_effect_options(e, 2, args); 
sox_add_effect(chain, e, &in->signal, &in->signal); 


相 比 于 普通 的 均衡 器， 高 通 滤波 带 不 需要 增益 这 个 参数 ， 所 以 只 
需要 这 两 个 参数 就 够 了 ， 低 通 效 采 右 的 名 字 为 lowpass。 


在 sox 库 中 ， 均 衡器 的 具体 实现 是 biquad (源码 文件 是 
biquads.c) ， 而 biquad 也 是 大 部 分 均衡 器 以 及 高 通 、 低 通 等 的 实现 方 
式 。biquad 又 称 为 双 二 阶 滤波 器 ， 双 二 阶 滤波 器 是 双 二 阶 (两 个 极点 和 
两 个 零点 ) 的 IIR 滤 波 器 ， 它 可 以 不 用 将 声音 转换 到 频 域 而 给 声音 做 频 
ee 
缩 效果 器。 


介绍 如 何 使 用 sox 中 的 压缩 器 。 首 移 创建 压缩 效果 器 ， 代 码 如 


SOX_effect_t* e; 
e = SoOx_create_effect(Sox_find_effect("compand") )， 


其 次 给 这 个 压缩 器 配置 参数 (作用 时 间 与 释放 时 间 ) ， 代 码 如 


char* attackRelease = "0.3,1.0"， 


然后 在 sox 中 采用 更 灵活 的 压缩 曲线 来 控制 压缩 比 ， 采 用 构造 一 个 
函数 转换 表 的 方式 来 实现 ， 代 码 如 下 : 


char* functionTransTable = “6:-90,-90,-70,-55,-31,-31,-21,-21,0,-20”; 


最 后 是 整体 增益 、 和 初始 化 音量 以 及 延迟 时 间 ， 代 码 如 下 : 


char* gain = "0",，; 
char* initialVolume = "-90",， 
char* delay = "0.1"; 


char* args[] = {attackRelease, functionTransTable, gain, initialVolume, delay}; 
sox_effect_options(e, 5, args); 


最 终 将 这 个 效果 右 加 入 效果 器 链 中 ， 并 销 虹 这 个 效果 器 ， 代 码 如 


sox_add_effect(chain, e, &in->signal, &in->signal); 
free(e); 


大 家 尝试 运行 ， 最 终 拿 出 处 理 完毕 的 音频 文件 进行 播放 ;感受 在 
代码 层 使 用 SDK 调 用 压缩 效果 器 处 理 的 音频 是 否 和 命令 行 工具 处 理 出 
来 的 音频 一 致 
6. 混 响 器 的 实现 


下 面 介绍 如 何 使 用 sox 的 混 啊 器 。 先 创建 混 响 效果 器 ， 代 码 如 下 : 


sox_effect_t* e; 
e = sox create effect(sox_ find effect("reverb")); 


其 次 给 这 个 混 啊 效果 紫 配 置 参数 ， 比 如 是 否 纯 湾 声 ， 代 码 如 下 : 


char* wetOnly = "-w"; 


然后 是 混 啊 大 小 、 高 频 阻 尼 以 及 房间 大 小 ， 代 码 如 下 : 


char* reverbrance = "50"; 
char* hfDamping = "50"， 
char* roomScale = "85"; 


最 后 是 立体 声 深度 、 早 反射 声 时间 以 及 湿 声 增益 ， 代 码 如 下 : 


char* stereoDepth = "100"， 
char* preDelay = "30"; 
char* wetGain = "0O",; 


将 这 些 参 数 一 块 配置 到 效 琳 右 中 ， 代 码 如 下 : 


char* args[] = {wetOnly, reverrance, hfDamping, roomScale, stereoDepth, preDelay, 
wetGain}; 
sox_effect_options(e, 7, args); 


最 终 将 这 个 效果 需 加 入 效果 器 链 中 ， 并 运行 程序 。 大 家 可 以 试听 
处 理 完 后 的 音频 效果 ， 其 实在 使 用 混 啊 效果 器 的 时 候 ， 一 般 在 混 啊 效 
果 器 之 前 增加 一 个 echo 效 果 器 往往 可 以 获得 比较 好 的 效果 ， 由 于 篇 幅 
的 关系 ， 这 里 就 不 再 资 述 了 。 


在 sox 库 中 ，Revermb 使 用 经 典 的 施 罗 德 (Schroeder) 混 啊 模型 来 实 
现 ， 施 罗 德 《Schroeder) 混 响 模型 使 用 4 个 并 联 的 梳 状 滤波 器 和 2 个 串 
联 的 全 通 滤波 器 来 建立 混 响 模型 。 梳 状 滤波 堪 提 供 混 响 效 果 中 延迟 较 
长 的 回声 ， 而 延 时 较 短 的 全 通 滤 波 器 则 起 到 增加 反射 声波 密度 的 作 
用 ， 如 图 8-28 所 示 。 
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图 8-28 


现在 我 们 来 分 析 施 罗 德 混 响 模型 的 优 缺 点 。 优 点 是 ， 通 过 设置 6 个 
滤波 器 的 参数 ， 可 以 模仿 出 前 期 反射 和 后 期 混 响 效 果 ， 全 通 滤波 器 可 
以 在 一 定 程度 上 减轻 梳 状 滤波 器 引入 的 泻 染 成 分 ， 缺 点 是 ， 产 生 的 混 
响 效果 缺少 早期 反射 声 ， 这 样 会 造成 声音 缺乏 空间 立体 感 而 且 不 清 

上 晰 。 对 于 缺点 ， 我 们 可 以 进行 改造 和 优化 ， 其 中 最 为 常用 的 一 种 手段 
就 是 使 用 干 声 的 echo 来 填充 早期 的 反射 声 ， 改 造 后 的 结构 如 图 8-29 所 
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图 8-29 


如 图 8-29 所 示 ， 在 混 响 效果 器 中 一 定 要 将 isWetOnly 属 性 设置 为 
True， 即 只 要 温 声 ， 再 使 用 Echo 来 填充 早起 反射 声 部 分 ， 将 湿 声 与 
Echo 加 起 来 之 后 作为 混 啊 的 湿 声 部 分 ， 然 后 再 与 干 声 以 一 定 的 干 湿 比 
混合 起 来 作为 最 终 的 输出 结果 。 


至 此 Android 平 台 上 的 效果 器 实现 已 经 介绍 完毕 。 特 别 说 明 ， 这 些 
效果 需 都 是 采用 C 语 言 编写 的 ， 因 此 理论 上 可 通过 交叉 编译 运行 在 iOS 
平台 上 。 但 是 ，iOS 平 台 的 多 媒体 库 非常 强大 ， 有 是 否 有 更 高 效 的 处 理 方 
式 呢 ?下 面 束 介绍 在 iOS 平 台 上 如 何 使 用 更 高 效 的 方式 来 处 理 首 频 。 


8.5.2 iOS 平 台 实 现 效 果 器 


相 较 于 Android 平 台 的 开发 者 来 说 ，iOS 平 台 的 开发 者 应 该 感到 非 
常 广 运 ， 因 为 苹果 公司 为 开发 者 提供 了 足够 强大 的 多 媒体 方面 的 
API， 所 以 先 来 看 看 iOS 平 台 本 号 的 首 频 处 理 API 能 否 满 足 我 们 实现 效 
果 器 的 要 求 。 通 过 查阅 开发 者 文档 ， 可 以 看 出 AudioUnit 可 以 用 来 处 理 
音频 ， 这 个 结论 在 第 4 章 中 有 提 到 过 。 此 外 ， 第 4 章 中 还 提 到 过 
AudioUnit 包 含 多 种 类 型 ， 其 中 有 一 种 类 型 是 EffectType 的 AudioUnit 。 


1. 均 衡 紫 的 实现 


下 面 使 用 AudioUnit 来 实现 均衡 器 。 在 AudioUnit 中 ， 均 衡器 有 两 
种 实现 类 型 : 第 一 种 类 型 称 为 ParametricEQ 的 实现 ， 这 种 类 型 均衡 器 
的 设置 类 似 于 sox 中 的 均衡 效果 器 ， 如 果 想 要 给 声音 多 个 均衡 器 ， 则 要 
增加 多 个 此 类 型 的 效果 器 ; 第 二 种 类 型 称 为 NBandEQ， 从 名 字 来 看 ， 
这 种 均衡 絮 可 以 同时 对 多 个 频带 进行 设置 ， 不 用 为 了 对 多 频带 进行 调 
整 而 添加 多 个 效果 器 。 实 际 生 产 过 程 中 ， 笔 者 常用 的 是 NBandEQ， 读 
者 应 该 根据 上 自己 的 场景 来 选择 具体 的 均衡 效果 器 。 这 里 分 别 介 绍 这 两 
种 类 型 的 AudioUnit 的 使 用 ， 且 还 是 按照 之 前 AUGraph 的 方式 来 使 用 。 
下 面 使 用 这 两 种 方式 实现 同一 个 需求 ， 给 3 个 中 心 频 率 增 加 或 减少 能 


量 。 


(1) ParametricEQ 


先 来 看 它 的 描述 ， 类 型 是 Effect， 子 类 型 是 ParametricEQ， 厂 商都 
是 Apple 公 司 ， 代 码 如 下 : 


CAComponentDescription equalizer_desc(kAudioUnitType_Effect, 
kAudioUnitSubType_ParametricEQ, 
kAudioUnitManufacturer_Apple) 


然后 按照 这 个 描述 将 均衡 做 AUNode 加 入 AUGraph 中 ， 并 晶 根 据 
这 个 AUNode 取 出 这 个 效果 器 对 应 的 AudioUnit， 代 码 如 下 : 


for(int i = 0; i < 3; i++) { 
AUNode equalizerNode,; 


AUGraphAddNode(playGraph, &equalizer_desc, &equalizerNode); 
equalizerNodes[i] = equalizerNode; 


} 
AUGraphopen(plLayGraph ) 
for (int i = 0; i < EQUALIZER COUNT; i++) { 
AUGraphNodeInfo(playGraph, equalizerNodes[i], NULL, 
&equalizerUnits[i]); 


根据 前 面 章节 中 讲述 的 AudioUnit 配 置 过 程 来 给 这 个 效果 器 配置 参 
数 ， 代 码 如 下 : 


for (int i = 0; i < 3; i++) { 

int frequency = [[frequencys objectAtIindex:i] integerVvalue]; 

float band = [[bands objectAtIindex:i] floatvVvalue]; 

int gain = [[gains objectAtIindex:i] integerVvaluel]; 

AudioUnitSetParameter(equalizerUnits[i], 
kParametricEQParam CenterFreq, 
kAudioUnitScope_Global, 0, frequency, 0); 

AudioUnitSetParameter(equalizerUnits[i], 
kParametricEQParam 0Q, 
kAudioUnitScope_Global, 0, band, 0); 

AudioUnitSetParameter(equalizerUnits[i], 
kParametricEQParam Gain, 
kAudioUnitScope_Global, 0, gain, 0); 


注意 ， 配 置 频带 的 参数 不 是 Q 值 也 不 是 以 O (Octave 八 度 ) 为 单位 
的 ， 而 是 以 Hz 为 单位 的 ， 中 心 频率 的 设置 以 及 增益 的 设置 都 是 和 之 前 
一 致 的 。 配 置 好 参数 之 后 ， 就 将 这 个 效果 器 连接 到 数据 源 (RemotelO 
或 Audio File Player) ， 然 后 试听 效果 或 者 将 数据 保存 下 来 。 


(2) NBandEQ 


先 来 看 它 的 描述 ， 类 型 为 Effect 类 型 ， 子 类 型 为 NBandEQ， 代 码 
oh 


CAComponentDescription n_band_equalizer_desc( 
kAudioUnitType_Effect, kAudioUnitSubType_NBandEQ, 
kAudioUnitManufacturer_Apple); 


从 名 字 上 可 以 看 出 ，NBandEQ 其 实 可 以 满足 为 多 个 频带 增强 或 者 
减弱 能 量 的 需求 ， 这 里 不 再 展示 构造 AUNode 以 及 从 具体 的 AUNode 中 
获取 AudioUnit 的 代码 ， 而 是 直接 把 设置 参数 的 代码 展示 如 下 : 


for (int i = 0; i < 3; i++) { 


float frequency = [[frequencys objectAtIndex:i] floatValue]， 


float band = [[bands objectAtIindex: 
float gain = [[gains objectAtIindex: 


AudioUnitSetParameter(nBandEqUnit, 
kAudioUnitScope_Global, 0, 
AudioUnitSetParameter(nBandEqUnit, 
kAudioUnitScope_Global, 0, 
AudioUnitSetParameter(nBandEqUnit, 
kAudioUnitScope_Global, 0, 
AudioUnitSetParameter(nBandEqUnit, 
kAudioUnitScope_Global, 0, 
AudioUnitSetParameter(nBandEqUnit, 
kAudioUnitScope_Global, 0, 


i] floatvaluel]; 

i] floatvaluel]; 

kAUNBandEQParam FilterType + i, 
kAUNBandEQFilterType_Parametric, 0); 
kAUNBandEQParam_ BypassBand + i, 
1, 0); 
kAUNBandEQParam_Frequency + i, 
frequency, 0); 
kAUNBandEQParam_Gain + i, 

gain, 0); 

kAUNBandEQParam_ Bandwidth + i, 
band, 0); 


乍 一 看 可 能 会 觉得 这 里 的 参数 怎么 多 。 下 面 逐 一 解释 各 个 参数 的 
含义 。 NBandEQ 表 示 想 给 哪个 band 设 置 束 直接 在 某 个 参数 后 面 加 几 即 
可 ， 第 一 个 参数 设置 是 选择 EQ 类 型 ， 其 中 EQ 类 型 包括 高 通 、 低 通 、 
带 通 等 ， 这 里 选择 Parametric 类 型 的 普通 EQ;， 第 二 项 参数 Bypass 的 设 
置 瓯 是 是 否 直 接 通 过 而 不 做 任何 处 理 ，0 代 表 不 对 这 个 频带 进行 处 理 ， 
1 代表 对 这 个 频带 进行 处 理 。 剩 余 的 三 个 参数 前 面 已 介绍 过 ， 但 是 要 注 
意 的 是 ，BandWidth 设 置 的 单位 是 O (Octave， 八 度 ) ， 因 此 ， 如 果 频 


宽 单 位 是 Q 值 ， 则 要 进行 转换 。 


下 面 将 这 个 效果 器 以 AUNode 的 形式 连接 到 数据 源 (RemoteIO 或 
者 Audio File Player) 后 ， 然 后 试听 效果 以 及 处 理 生 成 后 的 音频 文件 。 


2. 压 缩 器 的 实现 


下 面 使 用 AudioUnit 来 实现 压缩 器 。 


相 比 均衡 句 ， 压 缩 如 的 设置 比 


较 侧 单 。 先 来 看 压缩 紫 的 描述 ， 类 型 是 Effect 类 型 ， 子 类 型 是 


DynamicProcessor， 代 码 如 下 : 


CAComponentDescription compressor_desc(kAudioUnitType_Effect, 
kAudioUnitSubType_DynamicsProcessor, 


kAudioUnitManufacturer_Apple); 


其 次 利用 这 个 摘 述 构造 AUNode， 再 找 出 对 应 的 AudioUnit， 代 码 


如 下 : 


AUNode compressorNode ; 

AudiouUnit compressorUnit; 

AUGraphAddNode(mGraph，&compressor_ desc，&compressorNode ) ; 
AUGraphNodeInfo(mGraph, compressorNode, NULL, &compressorUnit); 


然后 给 这 个 AudioUnit 设 置 参 数 ， 代 码 如 下 : 


AudioUnitSetParameter(compressorUnit, kDynamicsProcessorParam Threshold, 
kAudioUnitScope_Global, 0, -20, 0); 
AudioUnitSetParameter(compressorUnit, kDynamicsProcessorParam HeadRoom, 
kAudioUnitScope_Global, 0, 12.937, 0); 
AudioUnitSetParameter(compressorUnit, kDynamicsProcessorParam ExpansionRatio, 
kAudioUnitScope_Global, 0, 1.3, 0); 
AudioUnitSetParameter(compressorUnit, 
kDynamicsProcessorParam_ExpansionThreshold, 
kAudioUnitScope_Global, ©0, -25, 0); 
AudioUnitSetParameter(compressorUnit, kDynamicsProcessorParam AttackTime, 
kAudioUnitScope_Global, ©0, 0.001, 0); 
AudioUnitSetParameter(compressorUnit, kDynamicsProcessorParam ReleaseTime, 
kAudioUnitScope_Global, 0, 0.5, 0); 
AudioUnitSetParameter(compressorUnit, kDynamicsProcessorParam MasterGain, 
kAudioUnitScope_Global, 0, 1.83, 0); 


这 里 的 参数 比较 人 简单， 和 之 前 介绍 的 压缩 器 参数 是 一 怪 的 ， 主 要 
有 门限 值 、 压 缩 比 、 作 用 时 间 和 释放 时 间 等 。 


最 后 将 这 个 效果 器 连接 到 数据 源 AudioUnit 的 后 面 ， 再 试听 效果 ， 
如 果 满 意 ， 则 可 以 试 着 生成 一 个 目标 音频 文件 。 


3. 混 响 絮 的 实现 
下 面 使 用 AudioUnit 来 实现 混 响 器 ， 代 码 如 下 : 


CAComponentDescription reverb_ desc(kAudioUnitType_Effect, 
kAudioUnitSubType_Reverb2, kAudioUnitManufacturer_Apple); 


这 里 利用 这 个 描述 (compressor-desc) 构造 出 AUNode， 并 且 取 出 
对 应 的 AudioUnit， 代 码 如 下 : 


AUNode reverbNode; 

AudioUnit reverbUnit,; 

AUGraphAddNode(mGraph, &reverb_ desc, &reverbNode); 
AUGraphNodeInfo(mGraph, reverbNode, NULL, &reverbUnit); 


然后 再 设置 参数 ， 代 码 如 下 : 


AudioUnitSetParameter(reverbUnit, kReverb2Param DryWetMix, 
kAudioUnitScope_Global, 0, 15.65, 0); 
AudioUnitSetParameter(reverbUnit, kReverb2Param_ Gain, 
kAudioUnitScope_Global, 0, 9.3, 0); 
AudioUnitSetParameter(reverbUnit, kReverb2Param MinDelayTime, 
kAudioUnitScope_Global, 0, 0.02, 0); 
AudioUnitSetParameter(reverbUnit, kReverb2Param MaxDelayTime, 
kAudioUnitScope_Global, 0, 0.25, 0); 
AudioUnitSetParameter(reverbUnit, kReverb2Param DecayTimeAtOHz, 
kAudioUnitScope_Global, 0, 1.945, 0); 
AudioUnitSetParameter(reverbUnit, kReverb2Param DecayTimeAtNyquist, 
kAudioUnitScope_Global, 0, 10, 0); 
AudioUnitSetParameter(reverbUnit, kReverb2Param RandomizeReflections, 
kAudioUnitScope_Global, 0, 1, 0); 


这 里 的 参数 设置 和 前 面 大 部 分 的 竭 啊 设 鞋 差不多 ， 大 家 可 以 目 己 
调试 各 项 参数 来 试听 效果 。 设 置 好 参数 后 ， 可 以 将 这 个 混 啊 占 连 接 到 
0 


8.6 ”本章 小 结 


本 章 从 声音 的 时 域 、 频 域 表 示 开 始 讲解 ， 并 且 讲 解 了 FFT 的 物理 
意义 ， 掌 握 这 些 基 本 的 表示 对 于 数 子 首 频 的 理解 古 很 有 帮助 的 ， 然 后 
讲解 了 一 些 基 本 的 乐理 知识 ， 掌 握 这 些 乐理 知识 之 后 ， 相 信 读 者 对 于 
声音 的 理解 可 以 达到 一 个 更 高 层次 的 理解 ， 最 后 介绍 了 混 首 效果 右 ， 
在 8.4 节 和 8.5 季 从 各 个 效果 器 的 原理 以 及 实现 进行 了 分 析 ， 并 且 对 各 目 
平台 的 优化 策略 也 做 了 总 结 。 读 者 可 以 依据 自己 工作 中 的 需求 逐一 进 
行 学 习 和 应 用 。 


第 9 草 ”视频 效 末 器 的 介绍 与 实践 


我 们 曾 在 第 7 章 最 后 抛 出 了 两 个 问题 : 第 一 个 问题 是 声音 方面 的 ， 
即 声音 听 起 来 有 点 干 ， 能 人 否 修 饥 得 更 好 听 ; 第 二 个 问题 是 视频 方面 
的 ， 即 能 否 给 图 像 调 对 比 度 、 提 腕 、 给 皮肤 磨 皮 等 操作 。 其 中 第 一 个 
问题 已 在 第 8 章 解 决 本 章 将 通过 给 视频 增加 滤 镜 效果 来 解决 第 二 个 问 
下风 O 〇 


可 能 有 读者 会 有 疑问 ， 视 频 的 处 理 和 普通 的 图 像 处 理 有 什么 区 别 

吗 ? 其 本 质 是 没有 差别 的 ， 都 是 针对 像素 进行 处 理 ， 只 是 视频 的 图 像 
是 一 帧 一 帧 的 。 在 进行 视频 处 理 时 ， 有 几 点 需要 注意 : 1) 视频 处 理 要 
求实 时 性 高 ， 因 为 视频 的 帧 率 最 低 应 为 15fps (1 秒 钟 15 帧 ) 以 上 ， 所 

以 每 帧 的 处 理 速 度 应 在 66ms 以 下 ， 这 样 才能 保证 视频 的 实时 处 理 ， 否 
则 会 让 视频 卡 顿 ， 给 用 户 带 来 不 好 的 体验 。2) 视频 有 时 间 元 余 性 ， 所 
以 在 处 理 某 些 特殊 场景 时 (如 人 脸 特征 点 识别 ，， 可 以 利用 这 一 特性 
来 减少 运算 量 。 第 1 章 我 们 已 经 介绍 过 视频 以 及 图 像 的 基础 知识 ， 下 面 
让 我 们 开始 本 章 内 容 的 学 习 吧 


9.1 图 像 处 理 的 基本 原理 


数字 图 像 处 理 是 指 利用 计算 机 将 图 像 的 数字 信号 进行 处 理 的 过 
程 。 图 像 处 理 最 早出 现 于 20 世 纪 50 年 代 ， 当 时 的 电子 计算 机 已 经 发 展 
到 一 定 水 平 ， 人 们 开始 利用 计算 机 来 处 理 图 形 和 图 像 信 息 。 数 子 图 像 
处 理 作为 一 门 学 科大 约 形成 于 20 世 纪 60 年 代 初 。 早 期 图 像 处 理 的 目的 
苹 改 善 图 像 的 质量 ， 它 以 人 为 对 象 ， 以 改善 人 的 视觉 效果 为 目的 。 


下 面 先 来 看 一 下 图 像 的 基本 属性 。 首 先是 亮度 ， 也 称 灰 度 ， 它 是 
大 家 稼 说 的 YUV 格 式 的 Y 分 量 ， 如 果 使 用 RGB 表示 图 像 ， 那 么 可 采用 
前 面 章节 中 提 到 的 公式 转换 出 亮度 信息 ; 其 次 是 对 比 度 (contrast) ， 
即 画 面 黑 与 白 的 比值 ， 也 就 是 从 黑 到 白 的 渐变 层次 ， 比 值 越 大 ， 说 明 
从 黑 到 日 的 渐变 层次 越 多 ， 色 彩 表现 越 丰富 ; 最 后 是 饱和 度 
(saturation) ， 是 指 色彩 的 鲜艳 程度 ， 也 称 为 色彩 的 纯度 。 了解 了 图 
像 的 这 几 个 基本 特征 后 ， 下 面 看 看 如 何 改变 一 张 图 像 里 的 这 些 特 征 ， 
以 及 改变 这 些 特征 会 对 整 张 图像 有 什么 影响 。 


9.1.1 亮度 调节 
亮度 调节 的 实现 有 两 种 方法 : 一 种 方法 是 非 线性 亮度 调节 ， 另 外 
一 种 方法 是 线性 亮度 调节 ， 下 面 逐 一 进行 介 


首先 是 非 线性 亮度 调 世 。 它 的 实现 非常 简单 ， 即 对 于 图 像 的 RGB 
通道 ， 每 个 通道 增加 相同 的 增 量 。 其 伪 代 码 如 下 : 


byte* image = loadImage( ); 

byte* r,g,b = interlaceImage(image); 
int brightness = 3; 

r += brightness; 

g += brightness; 

b += brightness,; 


上 述 代 码 的 实现 非常 简单 : 第 一 步调 用 loadImage 方 法 将 一 张 图 片 
加 载 到 内 存 ; 第 二 步 将 RGB 通道 分 离开 后 ， 再 对 这 三 个 通道 分 别 增加 
相应 的 亮度 值 。 这 种 亮度 调节 方法 的 优点 是 ， 代 码 简 单 ， 亮 度 调整 速 
度 快 ， 缺点 是 图 像 信息 损失 比较 大 ， 调 整 过 的 图 像 乎 痰 ， 无 层次 感 。 


其 次 是 线性 亮度 调 碑 ， 在 介绍 这 种 调和 方式 之 前 ， 先 介绍 HSL 色 
彩 模 式 。HSL 是 工业 界 的 一 种 颜色 标准 代表 色相 (plue) 、 饱和 度 
(Saturation) 、 明 度 (Lightness) 三 个 通道 的 颜色 ， 
用 0~255 的 数值 来 表示 。 这 种 调和 是 通过 对 色相 、 包 和 度 、 明 度 三 
颜色 通道 的 变化 及 其 相互 之 间 的 县 加 来 得 到 各 种 颜色 。 线 性 亮度 调节 
就 是 先 将 RGB 表示 的 图 像 转 换 为 HSL 的 颜色 空间 ， 然 后 对 工 通道 进行 
调节 ， 得 到 新 的 L 值 ， 再 与 HS 通道 合并 为 新 的 HSL， 最 终 转 换 为 RGB 
0 图 像 。 下 面 用 伪 代 码 来 实现 上 述 的 过 程 ， 第 一 步 先 用 RGB 计 
算出 工 值 : 


L = (max(r, max(g, b)) + min(r, min(g, b))) / 2; 


LL 的 取 值 范围 是 [0，255]， 然 后 利用 LL 值 与 RGB 分 别 求 出 HS 部 分 的 


if(L > 128) { 
rH 


gHS 
bHS 
} else { 
rHS 
gHS 
bHS 


(r * 128 - (L - 128) * 256) / (256 - L); 


(g * 128 - (L - 128) * 256) / (256 - L); 
(b * 128 - (L - 128) * 256) / (256 - L); 


r* 128 / 1; 
g* 128 /1L; 
b* 128 / 上 L; 


再 调整 L 值 的 亮度 得 到 新 的 L 值 ， 并 用 新 的 L 值 和 上 面 计算 出 的 HS 
的 值 求 出 新 的 RGB， 代 码 如 下 : 


int delta = 20;// [0-255] 
newL = L + delta - 128; 
if(newL > 0) { 


newR 
newG 
newB 
} else { 
newR 
newG 
newB 


ww 


得 到 新 的 RGB 像素 点 就 是 调和 亮 


rHS 
gHS 
bHS 


rHS 
gHS 
bHS 


十 
十 


(256 - rHS) * newL / 128 
(256 - gHS) * newL / 128; 
(256 - bHS) * newL / 128; 


rHS * newL / 128; 


gHS * newL / 128; 
bHS * newL / 128; 


度 之 后 的 像素 点 。 


性 亮度 调和 的 优点 是 调和 过 的 图 像 层 次 感 很 强 ; 缺点 是 


下 速度 慢 ， 而 且 当 有 亮度 增 减 量 较 大 时 邮 像 有 很 大 失真 


。 综 上 所 述 ， 线 
代码 复杂 ， 凋 


9.1.2 对比度 调 廊 


对 比 度 调 性 要 针对 RGB 三 个 通道 同时 调整 ， 而 不 能 对 三 个 通道 分 
别 调整 ， 因 为 分 别 调整 会 造成 色 偶 的 问题 。 对 于 这 三 个 通道 的 调整 ， 
可 以 用 一 条 函数 曲线 来 将 原始 的 RGB 作 为 输入 ， 对 应 这 条 画 数 曲线 的 
输出 束 是 调整 后 的 结果 。 


设置 对 比 度 的 函数 如 下 : 


y= (x- 0.5) * contrast + 0.5; 


这 条 函数 曲线 的 y 代 表 输 出 ，x 代 表 输 入 ， 这 条 曲线 会 同时 作用 到 
RGB 三 个 通道 。 如 果 contrast 值 为 1， me 即 曲 线 为 一 条 和 斜 
率 为 1 的 直线 。 如 果 想 增加 对 比 度 ， 即 扩 大 整 幅 图 像 所 鼎 色 及 乡 的 表现 程 
度 ， 则 要 将 contrast 设 置 为 大 于 1 的 数值 ， 例 如 要 设置 这 个 系数 为 1.2， 
曲线 图 如 图 9-1 所 示 。 


yp 


9-1 


图 9-2 


为 了 方便 对 比 ， 图 9-1 中 浅 色 的 直线 斜率 为 1， 代 表 输 出 和 输入 是 一 
样 的 ， 深 色 的 直线 代表 加 大 对 比 度 的 函数 曲线 ， 大 家 可 以 从 x 轴 的 0.5 这 
个 点 看 起 ， 左 边 深 颜 色 曲 线 下 降 得 更 快 一 些 ， 右 边 深 颜 色 的 曲线 上 升 
得 更 快 一 些 ， 最 终 会 导致 整 幅 图 像 所 表示 的 色彩 更 加 丰富 。 从 图 9-1 可 
以 看 到 ， 这 张 图 片 从 原来 的 0.25~0.75 这 段 表 示 颜 色 的 范围 〈 即 0.5) 的 
输入 最 终 扩 展 成 为 0.2~0.8 这 段 表示 颜色 的 范围 〈 即 0.6) ， 也 就 是 说 ， 
扩大 了 颜色 表示 范围 。 如 果 选 取 contrast 的 值 为 0.8， 则 代表 缩小 了 色彩 
的 表示 范围 。 如 图 9-2 所 示 ， 同 样 看 横 轴 ， 输 入 范围 从 0.25~0.75 吏 梓 缩 
小 为 0.3~0.7 了 ， 也 就 是 颜色 范围 为 0.5 最 终 缩小 到 了 0.4。 大 家 可 以 通 
过 一 张 图 片 去 查看 这 种 函数 曲线 的 处 理 效 果 。 


9.1.3” 饮 和 度 调 向 


图 像 的 多 和 度 调 丰 有 很 多 种 方法 ， 最 简单 的 方法 就 是 判断 每 个 像 
素 的 R、G、B 值 是 否 大 于 或 小 于 128， 若 大 于 ， 则 加 上 调节 值 ， 小 于 
则 减 去 调节 值 ， 也 可 将 像素 RGB 转 换 为 HSV， 然 后 调整 其 部分， 从 
而 达到 线性 调 市 图 像 饱和 度 的 目的 。 这 里 介绍 第 一 种 比较 人 简单 的 方 
法 ， 首 先 通过 RGB 计 算出 本 像素 点 的 腕 度 值 ， 计 算 公 式 如 下 : 


luminance = 0.2125 * R + 0.7154 * G + 0.0721 * B; 


然后 设计 一 个 可 以 调和 饱和 度 大 小 的 参数 saturation， 取 值 范 围 为 
[0.0，2.0]， 默 认 值 为 1.0， 代 表 输 出 图 像 就 是 输入 图 像 ， 像 素 不 做 任何 
变化 。 如 果 取 值 为 0.0， 则 代表 为 灰 度 图 ; 者 取 值 为 2.0， 则 代表 饱和 度 
最 大 ， 公 式 如 下 : 


output = (1.0 - saturation) * vec3(luminance) + saturation * vec3(R, 6G, B); 


因为 饱和 度 代 表 了 色彩 的 纯度 ， 所 以 增加 饱和 度 时 ， 羊 先 要 对 
RGB 都 乘 以 大 于 1.0 的 系数 ， 然 后 减 去 一 个 亮度 值 ， 防 止 其 亮度 不 一 
致 。 反 之 ， 降 低 饱 和 度 原 理 也 是 一 样 的 。 


9.2 图像 处 理 进 阶 


9.1 广 讲解 了 图 像 的 基本 特征 ， 以 及 如 何 调节 这 些 基 本 的 特征 来 达 
到 我 们 想 要 的 效果 。 但 是 ， 仪 仅 特 和 借 这 些 基 本 特征 的 修改 还 十 很 难 达 
到 实际 生产 环境 的 要 求 ， 因 此 本 市 给 大 家 介绍 一 些 更 加 复 灯 的 图 像 处 
理 。 线 性 滤波 可 以 说 是 图 像 处 理 中 的 一 种 常用 方法 ， 它 允许 我 们 对 图 
像 进行 处 理 ， 产 生 多 种 不 同 的 效果 。 做 法 很 简单 ， 假 设 有 一 个 二 维 的 
滤波 器 矩阵 《有 一 个 高 大 上 的 名 字 叫 卷 积 核 ) 和 一 个 要 处 理 的 二 维 图 
像 ， 那么 ， 对 于 图 像 的 每 个 像素 点 ， 先 计算 它 的 邻 域 像素 和 滤波 絮 算 
阵 的 对 应 元 素 的 乘积 ， 然 后 加 起 来 ， 以 此 作为 该 像素 位 置 的 值 ， 即 完 
成 整个 滤波 过 程 。 


9.2.1 图 像 的 郑 积 过 程 


对 图 像 和 滤波 矩阵 进行 逐个 元 素 相 乘 再 求 和 的 操作 ， 相 当 于 将 一 
个 二 维 的 函数 移动 到 男 一 个 二 维 函 数 的 所 有 位 置 ， 这 个 操作 就 叫 卷 
积 。 虽 然 卷 积 是 图 像 最 基本 的 操作 ， 但 却 非常 有 用 ， 这 个 操作 有 两 个 
基本 特点 ， 一 是 这 个 操作 是 线性 的 ， 也 就 古 我 们 用 每 个 像素 与 其 邻 域 
的 线性 组 合 来 代 奉 这 个 像素 ， 二 是 具有 平移 不 变性 ， 是 指 我 们 在 图 像 
的 每 个 位 置 都 执行 相同 的 操作 。 正 是 因为 具有 这 两 个 特性 ， 后 期 才 可 
以 将 图 像 处 理 的 算法 迁移 到 显卡 (GPU) 中 去 执行 ， 这 在 后 期 做 算法 
优化 的 时 候 会 有 更 加 深刻 的 认识 。 


对 于 平面 图 像 的 卷 积 ， 一 般 称 为 2D 卷 积 ， 因 为 需要 多 个 藤 套 的 循 
环 ， 所 以 执行 速度 比较 慢 ， 除 非 我 们 使 用 比较 小 的 卷 积 核 。 所 谓 卷 积 
核 ， 即 选择 这 个 像素 点 周围 领域 的 多 少 ， 一 般 选 用 3x3 或 者 5x5 的 卷 积 
核 。3x3 的 着 积 核 是 由 中 间 像 素 点 和 周转 包围 着 它 的 8 个 像素 点 共同 组 
成 一 个 3x3 的 和 矩阵。 在 移动 端 ， 性 能 肯定 征 最 重要 的 ， 所 以 我 们 一 般 
选择 上 下 左右 相 邻 的 四 个 领域 像素 点 来 组 成 卷 积 核 来 做 耸 积 操作 。 但 
不 论 是 何 种 卷 积 核 ， 都 会 要 求 所 有 的 像素 点 加 起 来 都 是 奇数 ， 这 样 才 
会 以 本 像素 作为 中 心 点 ， 然 后 以 领域 像素 点 (偶数 ) 来 和 本 像素 点 做 
线性 释 加 运算 。 规 定 了 卷 积 核 之 后 ， 束 可 以 定义 目 己 的 滤波 紫 和 矩阵 
了 ， 渡 波 右 矩阵 一 般 有 如 下 要 求 : 


滤波 融和 矩阵 的 元 素数 目 一 般 为 奇数 ， 这 样 才 会 有 一 个 中 心 。 
外 器 十 隆 所 有 的 元 素 之 和 应 该 等于 1， 这 息 为 了 保持 完 度 不 


人 


为 了 防 目 过载， 滤波 后 的 像素 点 的 值 一 定 要 维持 在 0 一 255 之 间 。 


中: 


然后 合 一 幅 图 片 的 所 有 像素 点 及 其 领域 像素 点 来 做 卷 积 操作 ， 你 
会 看 到 ， 我 们 定义 的 卷 积 矩阵 中 心 像素 点 的 权重 为 1， 领 域 像素 点 的 权 
重 为 0。 因此 ， 锥 加 之 后 的 像素 点 结 采 号 是 这 个 像素 点 的 原始 值 。 读 者 
可 以 目 己 理解 整个 着 积 过 程 。 


9.2.2” 铅 化 效 末 希 


图 像 的 锐 化 就是 补偿 图 像 的 轮 慷 ， 增 强 图 像 的 边缘 及 灰 度 跳 变 的 
部 分 ， 使 图 像 变 得 更 加 清晰 。 在 一 般 的 磨 皮 效 采 右 或 者 钢 频 解码 之 
后 ， 图 像 往往 会 变 得 比较 平滑 。 从 频 域 的 角度 来 考虑 ， 图 像 模糊 的 实 
质 是 因为 其 高 频 部 分 的 能 量 被 桶 减 ， 而 用 户 和 直接 看 到 的 现象 束 生 图 像 
中 的 边界 (edge) 、 轮 廓 变 得 模糊 ， 为 了 降低 这 种 不 利 的 效果 ， 通 常 
有 使 用 和 展 对 比 度 效 订 器 、 去 块 滤波 器 ， 此 外 ， 还 会 使 用 到 锐 化 效 宁 
有 全 O 


实现 锐 化 效果 融 的 方法 很 商 单 ， 也 是 通过 疼 像 卷 积 来 完成 的 ， 
了 增加 疼 像 细节 部 分 的 权重 。 定 义 如 下 卷 积 


int matrix[3][3] = { 
0,-1, 0, 
-1, 5,-1, 
0,-1, 0 

} 


上 面 这 个 矩阵 实际 上 是 将 要 处 理 的 像素 点 与 其 上 下 左右 四 个 领域 
像素 点 按照 矩阵 搬 述 来 做 线性 琶 加 ， 从 矩阵 中 对 像素 点 的 权重 分 配 可 
以 看 出 ， 这 个 卷 积 窍 阵 实际 上 就 是 计算 当前 点 和 领域 像素 点 的 Diff 
值 ， 然 后 将 所 有 的 Diff 值 再 加 到 这 个 像素 点 上 。 因 此 ， 当 当前 像素 点 
和 领域 像素 点 差别 不 大 的 时 候 ， 卷 积 之 后 的 结 末 是 不 变 的 ;而 当 它 正 
好 是 一 个 边缘 或 者 细 世 点 的 时 候 ， 束 会 更 加 突出 这 个 边缘 或 细节 。 上 
面 的 卷 积 操作 实际 上 只 做 了 5 个 像素 点 ， 如 果 卷 积 核 确实 要 做 3x3 的 话 

( 即 9 个 像素 点 ) ， 那 么 卷 积 矩阵 如 下 : 


int matrix[3][3] = { 
=1,=1;=1; 
-1, 9,-1, 
-1,-1,-1 

} 


如 条 我 们 想 做 一 个 可 以 动态 调 世 锐 化 程度 的 窍 阵 ， 那 么 可 以 设 定 
和 窍 阵 如 下 : 


int 人 ={ 
0， 


党 
-k, 2 le -k, 
0, -k, 0 
} 


其 中 ，k 的 取 值 范围 为 [0.0，2.0]， 如 采取 值 为 0.0， 则 代表 什么 者 
不 做 ， 输 出 图 像 和 输入 图 像 古 一 样 的 ， 如 采取 值 为 2.0， 则 代表 招 化 程 
度 达到 最 大 。 这 里 只 需要 理解 原理 ， 后 面 会 给 出 具体 的 实现 代码 。 


边缘 检测 算法 与 锐 化 的 类 似 ， 本 质 上 也 是 做 矩阵 的 卷 积 运算 ，! 
征 矩 阵 所 有 的 元 素 之 和 都 是 0(， 因 为 我 们 的 目的 是 得 到 边 绿 信息 ， 所 以 
只 需要 以 灰 度 图 作为 输入 就 可 ， 并 且 在 计算 像素 点 的 时 候 只 需要 取出 
一 个 子 像素 点 就 可 (因为 灰 度 图 的 r、g、b 的 值 都 一 样 ) ， 边 缘 检测 算 
法 的 矩阵 如 下 : 


int horizontalMatrix[3][3] = { 
二 
0, 0, 0, 
1 
} 


这 个 矩阵 可 以 检测 出 所 有 横向 的 边缘 ， 同 理 ， 可 以 利用 下 面 窍 阵 
找 出 所 有 纵 同 的 边缘 : 


int verticalMatrix[3][3] = { 
0, 1, 


-1, 0, 1, 
-1, 0, 1 
} 


找 出 这 两 个 边缘 点 之 后 ， 可 以 做 一 个 平方 和 来 代替 当前 点 的 腕 度 
全 。 。 大 家 可 以 设想 一 下 ， 如 采 当 前 像素 点 的 值 和 领域 的 8 个 像素 点 的 值 
3 那么 出 来 的 值 必 为 0， 也 束 是 黑色 的 ， 但是， 一 旦 有 差别 ， 
会 是 一 个 大 于 0 的 亮度 值 ， 差 别 越 大 ， 亮 度 值 也 越 大 。 


9.2.3 ”局 斯 模糊 算法 


其 实 模 糊 滤波 紫 束 古 对 周围 像素 进行 加 权 平 均 处 理 ， 对 于 均值 模 
糊 算 法 来 讲 ， 周 围 所 有 邻 域 像素 点 的 权 值 都 相同 ， 所 以 不 是 很 平滑 ， 
会 显得 糊糊 的 一 片 。 融 斯 模糊 就 是 用 来 解决 这 个 问题 的 ， 它 会 把 图 像 
的 模糊 处 理 得 很 平滑 ， 正 因为 这 个 优 息 ， 所 以 被 广 沁 用 在 图 像 降 噪 
上 ， 竺 别 是 在 边缘 检测 之 前 用 来 去 除 视 频 帧 的 噪点 。 下面 先 看 高 斯 模 
糊 的 权 值 是 如 何 分 配 的 。 


高 斯 模糊 的 权重 是 正 态 分 布 的 权重 ， 正 态 分 布 是 一 种 可 取 的 权重 
分 配 模 式 。 正 仿 分 布 在 图 形 上 表示 为 一 种 钟 形 曲 线 ， 越 接近 中 心 ， 取 
值 越 大 ， 越 远离 中 心 ， 取 值 越 小 。 大 多 数 统计 表明 ， 生 活 中 的 很 多 特 
征 都 呈正 态 分 布 ， 包 括 人 类 的 智力 、 身 高 、 考 试 成 绩 等 。 图 像 处 理 也 
一 样 ， 只 需要 将 中 心 像素 点 作为 原点 ， 以 领域 像素 点 距 中 心 像素 点 的 
远近 分 配合 适 的 高 斯 权重 ， 束 可 以 得 到 一 个 高 斯 加 权 平 均值 。 


在 图 像 处 理 领 域 ， 需 要 使 用 二 维 的 高 斯 分 布 函数 来 实现 高 斯 模糊 
的 算法 ， 二 维 高 斯 函数 如 下 所 示 。 


f(x,y) -|(2rcia 1-p’ ) on | - [ -4 -2 -A 证 二 ( 9- 
1 1 -2 2 


2(1—p’) 


其 中 ，p4、ph，、61、65 和 p 都 是 常数 ， 我 们 称 (x，y) 服从 参数 为 
Hi、 kh2、61、65 和 和 p 的 二 维 正 态 分 布 。 如 果 以 权重 大 小 作为 纵 坐 标 ， 与 
二 维 图 像 融 形成 一 个 三 维 空间 ， 这 个 函数 在 三 维 空间 中 的 图 像 葡 是 一 
J (x，y) 平 画 上， 如 图 9-3 所 示 ， 其 中 心 在 
Hi H2/ 


根据 式 (9-1) ,为 了 实现 矩阵 卷 积 滤波 ， 给 出 一 个 5x5 的 二 维 矩 
阵 ， 如 下 : 


int martrix[5][5] = { 
1, 4, 7, 4,1, 
4,16, 26, 16, 4, 
7,26,41, 26,7, 
4,16, 26, 16,4, 


1, 4, 7, 4,1, 


图 9-3 
像素 点 与 领域 像素 点 对 矩阵 进行 卷 积 之 后 ， 将 其 结果 除 以 273 (所 


有 权重 值 之 和 ) ， 可 得 到 亮度 相同 的 像素 点 替换 原始 像素 点 。 这 里 仅 
需 理解 原理 ， 后 面 会 给 出 具体 的 实现 代码 。 


9.2.4 双边 滤波 算法 


双边 滤波 (bilateral filter) 是 一 种 可 以 降 噪 保 边 的 滤波 器 。 之 所 以 
可 以 达到 此 效 末 ， 是 因为 滤波 亏 是 由 两 个 因 系 共同 影响 的 : 一 个 是 由 
几何 空间 距离 决定 滤波 右 系 数 ; 另 一 个 是 由 像素 差 值 决 定 滤波 髓 系 
数 。 几 何 空间 距离 类 似 于 高 斯 模糊 算法 ， 由 距离 中 心 像 素 点 的 远近 来 
确定 权重 值 ， 但 是 这 个 权重 值 到 旗 能 不 能 起 作用 还 得 看 第 二 个 因素 ， 
即 像素 差 值 ， 如 果 像 素 差 值 过 大 ， 那 么 吕 有 可 能 不 让 参与 最 终 的 权重 
计算 ， 以 达到 保 边 的 效果 如 果 差 值 不 太 大 ， 就 可 以 达到 降 噪 的 效 
果 。 双 边 滤 波 在 图 像 处 理 领 域 中 有 着 广泛 的 应 用 ， 比 如 在 麻 皮 、 去 品 
点 等 场景 下 都 有 应 用 。 


”我们 可 以 通过 一 张 图 乒 来 了 解 整个 双边 滤波 的 过 程 ， 如 图 9-4 所 
示 。 


bilateral filter weights at the central pixel 


spatial weight range weight 


vs 


input result 


multiplication of range 
and spatial weights 


图 9-4 


首 匈 ， 假 设 左 边 的 input 所 代表 的 是 独 片 ， 其 中 季 头 指 加 的 边 融 是 
用 来 确定 双边 滤波 权重 的 过 程 ， 右 边 的 result 所 代表 的 束 古 图 片 最 终 经 
过 双边 滤波 万 处 理 之 后 的 结 末 ， 其 中 季 头 指 回 的 位 置 的 边 虽 然 被 保留 
了 下 来 ， 但 是 在 两 个 平面 上 的 毛刺 被 平滑 掉 了 ， 这 也 束 古 我 们 希望 达 
到 的 两 个 目的 一 一 傈 边 和 降 品 。 


摊 下 来 分 析 这 个 权重 具体 是 如 何 确定 的 。 先 是 左边 的 空间 权重 
(spatial weight) 部 分 ， 这 个 权重 束 是 一 个 高 斯 权重 的 分 布 ， 再 看 右边 
的 像素 差 值 权重 (range weight) 部 分 ， 这 里 的 权重 是 根据 像素 点 差异 
大 小 计算 出 来 的 权重 大 小 ， 像 素 点 差异 越 大 ， 权 重 越 小 ， 所 以 这 里 在 
边缘 部 分 的 权重 非常 小 ， 然 后 将 两 者 相 乘 得 到 我 们 的 最 终 权 重信 息 .; 
最 后 将 该 权重 信息 和 领域 像素 点 做 加 权 平 均 ， 从 而 符 换 当前 像素 点 ， 
对 这 幅 图 片 的 所 有 像素 点 做 相同 的 操作 ， 最 终 得 到 结 琳 图 片 。 


9.2.5 疼 层 混合 介绍 


图 层 混合 是 指 两 个 图 层 需要 混合 在 一 起 ， 可 通过 多 种 模式 来 实现 
这 种 混合 。 在 Photoshop 中 有 27 种 以 上 的 混合 模式 ， 我 们 可 以 目 己 实现 
J 模式 ， 本 市 挑选 几 个 比较 第 见 的 图 层 混 合 模式 进行 讲解 。 不 

， 自 先 要 确定 几 个 术语 ， 然 后 再 分 别 来 讲解 几 种 瘦 见 的 混合 模式 。 


所 有 的 图 层 混 合 都 可 以 看 成 是 两 个 图 层 的 混合 (即便 是 N 个 图 
层 ， 也 可 以 一 一 混合 之 后 再 与 后 面 的 图 层 进行 混合 ) 。 我 们 规定 : A 
代表 上 面 图 层 的 色彩 值 ，B 代 表 下 面 图 层 的 色彩 值 ，C 代 表 混 合 之 后 的 
色彩 值 。 所 有 色彩 值 的 表示 类 型 为 浮 点 类 型 ， 取 值 范围 是 [0.0，1.0]。 


1. 正 片 苔 展 混 合 模 式 


将 两 个 颜色 的 像素 值 相对， 得 到 的 结 来 就 古 最 终 色 的 像素 值 。 
常 来 说 ， 执 行 正片 春 确 混合 之 后 的 颜色 比 原来 两 种 闫 色 都 深 。 - 任何 
色 与 黑色 正片 倒 底 混合 之 后 得 到 的 仍然 是 黑色 ， 任 何 颜 色 与 日 色 正片 
登 改 混合 之 后 仍 保持 原来 的 关 色 不 变 ， 而 与 其 他 颜色 执行 正片 谷底 混 
合 模 式 之 后 ， 会 产生 上 暗室 中 以 该 种 颜色 照明 的 效果 。 公 式 如 下 : 


C=A*B,; 


这 种 混合 模式 党 用 于 将 上 层 图 片 的 日 色 部 分 透 过 去 ， 从 而 显示 出 
下 面 图 片区 域 的 全 部 颜色 ， 其 他 颜色 加 深 的 场景 。 因 此 有 一 个 易于 记 
忆 的 口诀 ， 谁 黑 听 谁 的， 日 色 彻 故 无 视 。 


2. 滤 色 混 合 模 式 


与 正片 登 故 混合 模式 刚好 相反 ， 滤 色 混 合 是 将 两 个 颜色 的 互补 色 
的 像素 值 相 乘 ， 得 到 最 终 颜 色 的 像素 值 。 通 前 来 说 ， 执 行 滤 色 混合 模 
式 后 的 颜色 都 较 浅 。 任 何 颜色 与 黑色 执行 混合 减 色 之 后 ， 原 色 不 受 影 
啊 ; 任何 颜色 与 白色 执行 滤 色 混合 之 后 得 到 的 是 日 色 : 与 其 他 颜色 执 
行 滤 色 混合 后 会 产生 漂白 的 效果 。 公 式 如 下 : 


CSl= (= AY* (1 = B); 


滤 色 混合 模式 使 用 的 场景 ， 比 如 有 一 张 逆光 的 图 片 ， 看 着 比较 黑 
瞳 ， 我 们 先 复 制 一 份 ， 然 后 将 复制 的 这 张 照片 与 原始 图 像 进行 滤 色 混 
， 聊 可 以 得 到 一 种 不 错 的 效果 。 因 此 有 一 个 易于 记忆 的 口诀 : 谁 日 
听 谁 的 ， 黑 色 彻 确 无 视 。 


3. 谷 加 混合 模式 


在 保留 的 色 明 上 暗 变 化 的 基础 上 使 用 “正片 稚 确 ”或 “ 滤 色 ”混合 模 
式 ， 昌 然 绘图 的 颜色 被 和 加 a 到底 色 上 ， 但 会 保留 改色 的 高 光 和 阴影 部 
分 。 的 色 的 颜色 没有 人 被 取代 ， 而 是 与 绘图 色温 合 来 体现 原 图 的 腕 部 和 
暗部 。 使 用 登 加 混合 模式 可 使 改色 的 图 像 饱 和 度 及 对 比 度 得 到 相应 所 
高 ， 这 会 使 图 像 看 起 来 更 加 鲜 有 党 。 公 式 如 下 : 


n> 


if(B <= 0.5) { 
C=2*A*B; 
} else { 
Cia2* (Ls A (1 = B) 
} 


上 层 决 定 下 层 中 间 色 调 偏 移 的 强度 。 如 果 上 层 为 50% 灰 ， 则 结果 
完全 为 下 层 像素 的 值 。 如 果 上 层 比 50% 灰 上 暗 ， 则 下 层 的 中 间 色 调 将 向 
暗 地 方 偏 移 。 如 果 上 层 比 50% 灰 亮 ， 则 下 层 的 中 间 色 调 将 向 亮 地 方 偏 
移 。 对 于 上 层 比 50% 灰 上 暗 ， 下 层 中 间 色 调 以 下 的 色 带 变 罕 〈 原 来 为 0~ 
2x0.4x0.5， 现 在 为 0~2x0.3x0.5) ， 中 间 色 调 以 上 的 色 带 变 宽 (原来 
为 2x0.4x0.5~-1， 现 在 为 2x0.3x0.5~1) ; 反之 亦 然 。 


4. 柔 光 混 合 模式 


根据 绘图 色 的 明暗 程度 来 决定 最 终 色 是 变 亮 还 是 变 上 暗 。 当 绘图 色 
比 50% 的 灰 要 腕 时 ， 改 色 图 像 变 亮 ， 当 绘图 色 比 50% 的 灰 要 上 暗 时 ， 改 
色 图 像 就 变 暗 。 如 果 绘 图 色 有 纯 黑 色 或 纯 白色 ， 那 么 最 终 色 不 是 黑色 
或 白色 ， 而 是 会 稍微 变 暗 或 变 亮 。 如果 底 色 是 纯 白 色 或 纯 黑 色 ， 则 不 
0 。 这 种 效果 与 发 散 的 聚光灯 照 在 图 像 上 的 相似 。 公 式 如 


if(A <= 0.5) { 
C=(2*A 


- 1)*(B-B* B)+B; 


} else { 


C=(2*A- 1)* (sqrt(B) - B) + B; 


5. 强 光 混 合 模式 


根据 绘图 色 来 决定 是 执行 “正片 琶 底 ”还 是 “ 滤 色 ”混合 模式 。 当 绘 
图 色 比 50% 的 灰 要 亮 时 ， 底 色 变 亮 ， 这 与 执行 滤 色 混合 模式 一 样 ， 对 
增加 图 像 的 高 光 非 常 有 帮助 ， 当 绘图 色 比 50% 的 灰 要 暗 时 ， 底 色 变 
上 暗 ， 这 与 执行 正片 琶 底 混合 模式 一 样 ， 可 增加 图 像 的 暗部 。 当 绘图 色 
是 纯 白 色 或 黑色 时 ， 得 到 的 是 纯 白 色 和 黑色 。 这 种 效果 与 溜 眼 的 聚 光 
灯 照 在 图 像 上 的 相似 。 公 式 如 下 : 


if(A <= 0.5) { 
C=2*A*B; 
} else { 
Ce wl AY™ (Ls By 
} 


强 光 混 合 模 式 的 效果 完全 等 价 于 登 加 混合 模式 中 两 个 图 层 进 行 顺 
序 交换 的 效果 。 如 有 果 上 层 的 颜色 高 于 50% 灰 ， 则 下 层 越 亮 ， 反 之 越 


暗 。 


9.3 ”使 用 FFEmpeg 内 部 的 视频 滤 镜 


通过 前 面 两 世 的 介绍 ， 大 家 应 该 已 经 了 解 了 图 像 的 基本 处 理 以 及 
比较 复杂 的 处 理 。 但 是 ， 如 条 在 工作 中 遇 到 一 些 问 题 ， 是 否 需 要 我 们 
目 己 去 实现 一 些 很 基础 的 视频 滤 镜 呢 ? 答案 当然 是 否定 的 ， 所 以 本 市 
介绍 如 何 利用 FFmpeg 的 视频 滤 镜 模块 来 解决 应 用 场景 下 的 问题 。 


9.3.1 ”FFmpeg 视频 滤 镜 介绍 


第 3 章 已 经 详细 介绍 了 如 何 使 用 FFEmpeg 的 命令 行 模式 来 完成 视频 滤 
镜 的 添加 ， 因 为 在 实际 工作 中 ， 竺 别 旦 在 客户 端 开 发 中 很 难 直 接 使 用 
命令 行 去 完成 工作 ， 所 以 本 节 会 详细 介绍 如 何在 代码 层 使 用 FFmpeg 提 
供 的 内 置 视频 滤 镜 。 


基于 前 面 章节 对 FFmpeg 的 了 解 ， 不 论 是 音频 滤 镜 还 是 视频 减 镜 ， 
都 生计 对 原始 格式 进行 的 操作 ， 而 原始 格式 对 应 到 FFmpeg 中 ， 封 猴 的 
结构 体 瓯 是 AVFrame， 所 以 我 们 进行 着 镜 处 理 的 时 机 是 确定 的 ， 即 在 编 
太 ° 


经 MUX 操 作 网 络 流 或 
与 IO 操作 本 地 文件 
图 9-5 


从 图 9-5 中 可 以 看 到 ， 视 频 滤 镜 是 针对 解码 之 后 的 AVFrame 进 行 的 
处 理 ， 处 理 完 毕 之 后 的 数据 格式 也 走 原 始 数据 格式 ， 节 终 再 进行 编码 
和 
日 色 9-6 采 泵 。 


网 络 视频 流 或 经 VO 操作 与 的 
本 地 视频 文件 Demux 操 作 
视频 滤 镜 提取 出 a 


图 9-6 


视频 的 播放 过 程 恰 好 息 永 制 的 一 个 逆 过 程 ， 当 解码 结束 之 后 ， 束 
可 以 进行 视频 处 理 ， 处 理 完毕 之 后 也 是 原始 格式 。 现 在 我 们 已 经 明确 
了 视频 滤 镜 处 理 的 时 机 或 者 FFmpeg 视 频 滤 镜 的 输入 是 什么 了 ， 并 且 了 
解 了 输出 也 是 一 个 AVFrame 的 数据 结构 。 接 下 来 看 如 何 使 用 FFmpeg 的 
视频 滤 镜 。 在 使 用 FFmpeg 做 视频 滤 镜 处 理 之 前 ， 要 确保 在 编译 FFmpeg 
的 配置 阶段 打开 了 我 们 想 使 用 的 视频 滤 镜 ， 如 果 没 有 打开 想 使 用 的 滤 
镜 ， 那 么 在 初始 化 的 时 候 殉 会 出 错 。 


9.3.2 ”小 镜 图 的 构建 


在 最 开始 注册 所 有 封闭 格式 和 编码 器 的 地 方 也 要 对 过 滤器 进行 注 
册 ， 代 码 如 下 : 


avfilter_register_all(); 


下 面 以 播放 妖 应 用 为 例 进行 讲解 。 首 和 完 ， 打 开 资 源 文件 ， 然 后 初 
台 化 视频 滤 锁 处 理 器 。 由 于 在 FFmpeg 中 的 视频 滤 镜 处 理 器 是 以 一 个 图 
状 的 结构 来 完成 复杂 图 像 处 理 的 ， 因 此 移 要 分 配 出 一 个 处 理 硕 的 图 状 
结构 来 完成 视频 滤 镜 的 操作 ， 代 码 如 下 : 


AVFilterGraph *filter_graph; 
filter_graph = avfilter_graph_alloc(); 


接 下 来 为 _graph 添 加 一 个 起 始 的 Filter， 作 为 视频 帧 数据 的 接受 
者 ， 代 码 如 下 : 


AVFilterContext *buffersrc_ ctx; 

AVFilter *buffersrc = avfilter_get_by_name("buffer"),; 

char args[512]; 

snprintf(args, sizeof(args), 
"video_size=%dx%d:pix_fmt=%d:time base=%d/%d:pixel aspect=%d/%d", 
pCodecCtx->width, pCodecCtx->height, pCodeccCtx->pix_fmt, 
pCodecCtx->time_base.num, pCodecCtx->time_base.den, 
pCodecCtx->sample_aspect_ratio.num, 
pCodecCtx->sample_aspect_ratio.den); 

int ret = avfilter_graph_create filter(&buffersrc ctx, buffersrc, "in", args, 
NULL, filter_graph); 

if(ret < 0) { 
LOGI("Cannot create buffer source Filter :", av_err2str(ret)); 
return ret,; 


} 


从 上 述 代码 中 可 以 看 到 ， 第 一 步 要 通过 名 称 将 “buffer” 这 个 Filter 找 
出 来 ;第 二 步调 用 方法 av filter_graph_create_filter 来 实例 ia 
(由 于 这 个 Filter 是 源 ， 所 以 要 用 args 配 置 好 所 有 的 参数 ) ， 并 且 加 入 
上 一 阶段 创建 的 图 中 ， 如 果 返 回 负 数 ， 则 输出 信息 并 且 返 加 人 台 客 户 端 


代码 。 接 下 来 再 为 _graph 添 加 一 个 终点 的 Filter， 作 为 提供 给 外 界 经 过 
视频 滤 镜 处 理 过 的 视频 帧 ， 代 码 如 下 : 


AVFilterContext *buffersink_ctx; 
enum PixelFormat pix_fmts[] = { PIX_FMT_GRAY8, PIX_FMT_NONE }; 
AVFilter *buffersink = avfilter_get_by_name("buffersink"); 
AVBufferSinkParams *buffersink_params = av_buffersink_params_alloc(); 
buffersink_params->pixel fmts = pix_fmts; 
ret = avfilter_graph_create filter(&buffersink_ctx, buffersink, "out", NULL, 
buffersink_params, filter_graph); 
av_free(buffersink_params); 
if (ret < 0) { 
LOGI("Cannot create buffer sink :", av_err2str(ret)); 
return ret; 


上 上述 代 码 会 将 名 称 为 “<buffersink” 这 个 Filter 按 照 配 置 的 参数 实例 化 
并 且 加 入 图 中 ， 代 表 这 个 图 状 结构 的 最 后 一 个 Filter。 现 在 这 个 图 的 架 
子 基本 搭建 起 来 ， 接 下 来 束 古 把 实际 要 处 理 的 图 像 的 Filter 加 入 图 中 。 
但 在 此 之 前 ， 要 先 解决 两 个 问题 : 第 一 个 问题 是 这 个 Filter 应 如 何 表 
示 ; 第 二 个 问题 是 这 个 Filter 应 该 放 入 图 的 哪个 位 置 。 先 看 如 何 描 述 一 
个 Filter， 在 FFmpeg 中 使 用 字符 串 来 描述 Filter， 比 如 给 图 片 做 镜像 的 
效果 器 摘 述 为 : 


char filters_descr[512]; 
snprintf(filters_descr, sizeof(filters descr), "vflip"); 


如 宋 需 要 多 个 效 末 郁 同 时 工作 ， 则 可 以 以 逗号 的 形式 将 各 个 效果 
器 连接 起 来 。 下 面 的 代码 是 针对 Android 平 台 的 摄像 头 采集 出 的 一 张 
640x480 的 图 片 ， 先 做 裁剪 ， 然 后 做 镜像 ， 最 后 做 一 次 270 度 或 者 90 度 
的 旋转 ， 代 码 如 下 : 


char filters_descr[512]; 

int videowidth = 480; 

int videoHeight = 480; 

int cropLeftMargin = 180; 

int cameraId = FACING_ FRONT;// or FACING_ BACK 

snprintf(filters_descr, sizeof(filters descr), 
"crop=%d:%d:%d:0,vflip,transpose=%d", videowWidth, videoHeight, 
cropLeftMargin, cameraIld % 2 ==0 1 : 2); 


下 面 来 看 这 个 Filter 应 该 连接 在 图 中 哪 一 个 市 点 的 后 面 ， 代 码 如 


AVFilterInOut *inputs = avfilter_inout_alloc(); 
inputs->name = av_strdup("out"); 
inputs->filter_ctx = buffersink_ctx; 
inputs->pad_idx = 0; 

inputs->next = NULL; 


上 述 代 码 中 的 AVFilterInOut 结 构 体 代表 效果 器 图 中 的 一 个 具体 市 
上 护 ， 而 这 个 节 扩 实际 上 束 是 前 面 所 声明 的 buffersink 所 代表 的 Filter。 接 
着 来 看 这 个 节点 应 该 连接 到 哪 一 个 市 点 上 ， 代 码 如 下 : 


AVFilterInOut *outputs = avfilter_inout alloc(); 
outputs->name = av_strdup("in"); 
outputs->filter_ctx = buffersrc_ctx; 
outputs->pad_idx = 0; 

outputs->next = NULL; 


上 述 代 码 中 的 节点 实际 上 是 效果 吉 图 的 起 始 季 点。 效果 丹 世 点 应 
连接 到 前 面 的 buffersrc 闻 点 上 。 解 决 了 上 壕 问 题 之 后 ， 将 这 个 Filter 加 
9 完成 操作 之 后 ， 要 释放 挥 我 们 构建 出 的 输入 和 输出 节点 ， 代 
下 


ret = avfilter_graph_parse_ptr(filter_graph，Tfilters_descr， 
&inputs, &outputs, NULL); 

avfilter_inout_free(&outputs); 

avfilter_inout_free(&inputs); 

If (ret < 0){ 
LOGI("avfilter_graph_parse_ptr failed : ", av_err2str(ret)); 
return ret; 


} 


这 里 可 能 有 读者 会 怀疑 ， 我 们 是 不 是 将 这 个 Filter 给 连接 反 了 ， 也 
就 是 将 这 个 Filter 闻 点 的 input 和 和 output 搞 错 了 。 确 实 ， 这 个 地 方 比 较 
绕 ， 笔 者 读 源 码 发 现 ， 这 应 该 和 和 FFmpeg 内 部 是 如 何 构 建 效果 器 图 是 有 
关系 的 ， 也 正 是 因为 FFmpeg 内 部 实现 的 原因 ， 所 以 这 里 就 把 和 点 的 输 
入 和 输出 写 反 了 ， 读 者 可 以 通过 源码 理解 一 下 。 


现在 已 经 把 整个 匈 构 建 起 来 了 ， 搂 下 来 做 最 重要 的 一 步 ， 即 配置 
这 个 图 ， 代 码 如 下 : 


if ((ret = avfilter_graph_config(filter_graph, NULL)) < 0){ 
LOGI("avfilter_graph_config failed :", av_err2str(ret)); 
return ret; 


至 此 ， 整 个 效果 器 的 图 束 配 置 好 了 。 接 下 来 学 习 如 何 真正 使 用 刚 
刚 配 置 好 的 这 个 视频 滤 镜 图。 


9.3.3 ”使 用 与 销毁 滤 镜 图 


前 面 已 经 介绍 过 ， 这 个 滤 镜 图 的 输入 古 一 个 AVFrame 结 构 体 ， 输 
出 同样 也 十 一 个 AVFrame 结 构 体 。 因 此 ， 先 分 配 出 一 个 输入 视频 帧 对 
象 和 一 个 输出 视频 帧 对 象 ， 代 码 如 下 : 


AVFrame *inputFrame = avcodec alloc frame(); 
AVFrame *outputFrame = avcodec alloc frame(); 


接 下 来 是 如 何 使 用 这 个 滤 镜 图 了 。 假 设 无 论 是 录制 视频 的 应 用 还 
是 视频 播放 如 的 应 用 ， 都 已 经 将 inputFrame 这 个 对 象 填充 好 ， 那 么 如 
何 将 inputFrame 对 象 中 的 内 容 经 过 滤 镜 图 处 理 成 为 一 个 outputFrame 对 
象 呢 ?代码 如 下 : 


if (av_buffersrc_add frame flags(buffersrc ctx, inputFrame, 0) < 0) { 
LOGI("Error while feeding the filter graph"); 
return -1; 


} 
while (1) { 
ret = av_buffersink_get_frame(buffersink_ctx, outputFrame); 
if (ret == AVERROR(EAGAIN) || ret == AVERROR_EOF){ 
break; 


// Do Something 
av_frame_unref(outputFrame); 


从 以 上 代码 中 可 以 看 出 ， 第 一 步 是 将 inputFrame 填 充 到 小 镜 图 中 
的 第 一 个 市 点 中 去 ;， 第 二 步 是 进入 一 个 循环 ， 不 断 从 小 镜 图 中 的 最 后 
一 个 节点 拉 取 出 处 理 完毕 的 outputFrame， 然 后 将 outputFrame 进 行 对 应 
处 理 ， 如 果 是 视频 播放 絮 ， 则 抽取 出 YUV 数 据 封 装 到 VideoFrame 结 构 
体 中 ; 如果 是 视频 录制 器 ， 则 进行 赋值 pts 后 做 编码 操作 。 最 终 去 掉 对 
outputFrame 的 引用 并 重 置 这 个 结构 体 里 所 有 的 变量 。 

竺 最 终 使 用 完毕 之 后 ， 需 要 销毁 掉 滤 镜 图 与 对 应 分 配 的 视频 帧 资 
源 ， 代 码 如 下 : 


avfilter_graph_free(&filter_graph); 
// 销 虹 其 他 资源 


av_frame_free(&inputFrame); 
av_frame_free(&outputFrame); 


一 


9.3.4 利用 滤 镜 介绍 


下 面 介绍 FFmpeg 中 常用 的 视频 滤 锐 。 本 市 中 的 每 一 个 最 终 输 出 都 
是 一 串 字 符 ， 输 出 的 这 个 字符 串 可 以 直接 应 用 到 9.3.2 节 中 构建 的 
Filter ° 
1. 翻 转 、 旋 转 、 裁 切 

(1) 翻转 

在 FFEmpeg 中 提供 了 垂直 翻转 和 水 平 翻 转 两 种 类 型 的 效果 龙 。 其 


中 ， 水 平 翻转 是 给 图 片 做 镜像 操作 的 ， 名 称 为 “hflip”;， 而 垂直 翻转 的 
名 称 为 “vflip”。 在 9.3.2 方 中 可 以 直接 使 用 的 滤 镜 字符 串 表示 为 : 


const char* filters descr = "hflip"; 


(2) 旋转 


旋转 在 FFmpeg 中 使 用 transpose 来 表示 ， 有 0、1、2、3 四 种 取 值 ， 
它们 分 别 表示 的 含义 如 下 : 


-0: 逆 时 针 旋 转 90 度 并 做 垂直 翻转 ; 

1: 顺 时 针 旋转 90 度 ; 

2: 逆 时 针 旋 转 90 度 〈《 即 顺 时 针 旋 转 270 度 ) : 

-3: 顺 时 针 旋 转 90 度 并 做 垂直 翻转 。 

对 应 于 9.3.2 节 ， 可 以 直接 使 用 的 滤 镜 字符 串 表 示 为 : 


const char* filters descr = "transpose=1",，; 


(3) 裁 切 


裁 切 在 FFmpeg 中 使 用 crop 来 表示 ， 参 数 顺 序 依 次 为 width: 
height: top: left。 其 中 width 和 height 分 别 代表 的 含义 是 要 裁 切 成 的 目 
标 视频 的 宽 和 高 ， 而 top 和 1left 代 表 的 意义 是 从 原始 视频 的 顶部 位 置 和 
ee 。 对 应 于 9.3.2 节 ， 可 以 直接 使 用 的 滤 镜 字符 串 表 示 


const char* filters_descr = "crop=480:480:180:0"; 


上 述 代码 摘 述 了 将 一 个 视 为 480 、 长 为 640 的 视频 从 顶部 距离 180 开 
台 裁 剪 ， 最 终 裁 剪 为 一 个 长 和 宽 都 是 480 的 视频 。 


2. 增 加 水 印 /消除 水 印 
(1) 消除 水 印 


消除 水 印 的 做 法 比较 人 简单， 前 提 是 要 知道 水 印 在 视频 的 什么 区 
域 ， 视 频 滤 镜 的 内 部 实现 会 将 这 一 块 区 域 做 一 个 模糊 ， 从 而 将 水 印 部 
分 模糊 掉 。 在 FFmpeg 中 用 delogo 来 消除 水 印 的 滤 镜 ， 参 数 为 x=x1: 
y=y1: w=w1: h=h1: band=band1。 其 中 前 四 个 参数 的 含义 大 家 应 该 
比较 清楚 ，x 代 表 距 离 图 片 左 边缘 的 距离 ，y 代 表 距 离 图 片上 边缘 的 距 
离 ;w 与 h 分 别 代表 水 印 区 域 的 视 度 和 高 度 ;， 最 后 一 个 参数 band 代 表 模 
糊 程度 (默认 值 是 1) ， 通 常 可 以 设置 为 5， 也 可 以 根据 水 印 和 背景 的 
J ° 对 应 于 9.3.2 方 ， 可 以 直接 使 用 的 滤 镜 字符 串 
仆仆: 


const char* filters_ descr = "delogo=x=0:y=0:w=100:h=77:band=10"; 


(2) 增加 水 印 


相 较 于 消除 水 印 ， 增 加 水 印 是 工作 中 更 加 第 用 的 一 种 视频 滤 镜 。 
首先 需要 一 张 1ogo 图 片 ， 利 用 movie 将 这 张 图 片 读 入 ， 并 记 为 logo 参 
数 ; 然后 对 整个 滤 镜 图 结构 ， 将 输入 视频 帧 记 为 让 ， 输 出 记 为 out， 利 
用 overlay 这 个 滤波 絮 完 成 增加 水 印 操作 。 对 应 于 9.3.2 字 ， 可 以 直接 使 
用 的 滤 镜 字符 串 表示 如 下 : 


const char* filters_descr = "movie=/Users/apple/logo.png[1lo0go]; 
[in][logol]overlay=main_w-overlay_w-10:10[out]"; 


如 上 述 代 码 所 示 ， 首 先 利 用 movie 将 要 添加 的 水 印 读 入 进来 ， 并 记 
为 logo 变 量 ; 然后 和 输入 视频 帧 ( 记 为 in) 一 块 组 成 输出 视频 帧 〈 记 
为 out) 。 组 合 的 过 程 是 通过 overlay 的 参数 来 表示 的 ， 在 overlay 参 数 中 
有 以 下 几 个 内 置 变量 ，main _w 和 main_h 为 输入 视频 帧 的 宽 和 高 ， 
overlay_w 和 overlay_h 为 读 入 进来 的 水 印 的 宽 和 高 。overlay 的 参数 顺序 
与 意义 也 比较 简单 ， 它 的 第 一 个 参数 吏 是 距离 原始 视频 帧 左边 缘 的 距 
离 ， 第 二 个 参数 丈 是 距离 原始 视频 帧 上 边缘 的 距离 。 所 以 上 述 代码 中 
是 将 水 印 放 到 了 原始 图 像 的 右上 角 ， 如 采 读 者 的 场景 是 放 到 左上 角 或 
者 其 他 位 置 ， 那 么 可 以 根据 内 置 变量 表示 出 来 。 


3. 对 比 度 、 饱 和 度 、 亮 度 调 市 


下 面 要 介绍 的 是 eq 这 个 视频 滤 镜 ， 在 低 版 本 的 FFmpeg 中 古 没 有 这 
个 视频 滤 镜 的 ， 比 如 ， 笔 者 验证 的 2.1.1 版 本 就 没有 这 个 效果 器 ， 但 在 
2.8.5 版 本 中 有 这 个 效果 器 。 具 体 如 何 查 看 安 狠 的 FFmpeg 是 否 包 含 这 个 
效果 器 ， 可 以 执行 以 下 命令 : 


ffmpeg -filters | grep eq 


(1) 对 比 度 

在 eq 这 个 视频 滤 镜 中 可 以 调节 对 比 度 ， 参 数 是 contrast， 取 值 范围 
是 -2.0~2.0， 默 认 值 是 1.0。 一 般 可 将 增加 对 比 度 设 置 为 1.25 或 者 1.5， 
其 具体 含义 在 9.1.2 节 中 已 经 讲解 过 。 

(2) 饱和 度 


在 eq 这 个 视频 滤 镜 中 可 以 调节 饱和 度 ， 参 数 是 saturation， 取 值 范 
围 是 0.0~3.0， 默 认 值 是 1.0， 有 具体 含义 可 以 参考 9.1.3 闻 。 


(3) 调节 亮度 


在 eq 这 个 视频 滤 镜 中 可 以 调节 完 度 ， 参 数 古 brightness， 取 值 范 转 
是 -1.0~1.0， 默 认 值 0.0， 取 值 为 正 数 ， 代 表 增 加 亮度 。 


下 面 给 出 一 个 增加 对 比 度 、 增 加 饱和 度 ， 并 且 提 亮 的 滤 镜 代码 : 


const char* filters_descr = "eq=contrast=1.25:brightness=0.05:saturation=1.05"; 


4. 添 加 面板 


除 基 础 效 采 恬 的 使 用 ， 在 日 音 工 作 中 还 可 能 会 经 常用 到 分 辨 率 转 
换 ， 这 时 就 需要 通过 面板 来 处 理 。 比 如 ， 有 一 个 480x480 的 视频 ， 
为 菏 些 平台 的 限制 ， 现 在 需要 将 这 个 视频 转换 为 一 个 16:9 的 宽屏 视 
频 ， 两 侧 填 充 黑 边 ， 如 何 实现 ? 先 来 看 滤 镜 代码 如 下 : 


const char* filters descr = "pad=iw*16/9:iw: (ow-iw)/2:0:black"; 


上 述 代码 会 使 用 pad 歼 果 器 建立 一 个 面板 ， 并 把 输入 画面 画 到 面板 
上 。 在 这 个 效果 恬 里 有 以 下 几 个 内 置 变量 : iw 和 让 分别 代表 input 画 面 
的 宽 和 高 ，ow 和 oh 分 别 代表 output 画 面 的 宽 和 高 。pad 的 参数 一 共有 四 
个 ， 前 两 个 参数 分 别 代表 面板 的 宽 和 高 。 在 需求 中 ， 由 于 要 做 成 比例 
为 16:9 的 宽屏 视频 ， 所 以 计算 出 最 终 面 板 的 宽度 应 该 是 当前 宽度 乘 以 
16 除 以 9， 而 高 度 维持 不 变 。 后 面 两 个 参数 分 别 代表 从 距离 面板 的 左边 
缘 和 上 边缘 多 大 距离 处 开始 画 。 这 里 用 到 了 内 置 变量 ow， 我 们 期 望 原 
台 视 频 放 在 面板 中 间 ， 所 以 距离 面板 左边 缘 的 距离 是 ow-iw 除 以 2， 而 
距离 上 边缘 的 距离 目 然 是 0。 


9.4 ”使 用 OpenGL ES 实现 视频 滤 镜 


在 移动 平台 上 ， 大 家 关心 的 是 性 能 ， 特 别 在 图 像 或 者 视频 处 理 方 
面 ， 性 能 问题 更 是 一 个 突出 的 问题 。 那 在 移动 平台 的 图 像 处 理 方 面 如 
何 提高 性 能 呢 ? 答案 是 通过 OpenGL ES。 我 们 要 充分 利用 显卡 并 行 工 
作 的 特点 ， 这 样 可 以 极 大 地 提高 图 像 或 视频 的 处 理 速度 。 


9.4.1 ”加 水 印 


在 第 9.3 世 中 已 介绍 过 使 用 FFmpeg 这 个 框架 中 目 市 的 视频 滤 镜 完成 
了 一 些 操作 ， 其 中 包括 了 加 水 印 的 操作 。 虽 然 不 同 的 架构 设计 需要 不 
同 的 技术 实现 ， 但 如 果 是 在 已 经 架设 过 OpenGL ES 环境 的 系统 下 ， 笔 
者 还 是 强烈 推荐 使 用 OpenGL ES 来 完成 添加 水 印 的 操作 ， 因 为 这 样 会 
有 更 快 的 处 理 速 度 ， 更 低 的 CPU 消 耗 。 本 市 来 看 如 何 使 用 OpenGL ES 完 
成 添加 水 印 的 操作 。 


水 印 的 源 一 般 是 一 张 PNG 的 图 片 ， 所 以 需要 为 工程 引入 一 个 可 以 
解码 PNG 的 库 (当然 也 可 以 让 各 个 客户 端 各 自 实现 解码 ， 但 是 这 不 太 
符合 跨 平 台 系 统 的 设计 规则 ) 。 由 于 这 个 库 需要 同时 运行 在 Android 平 
台 和 iOS 平 台 上 ， 所 以 要 求 这 个 库 是 C 或 者 C++ 语言 实现 的 。 最 终 ， 我 
们 选择 libpng 库 ，libpng 库 的 解码 的 输出 一 般 是 RGBA 格 式 的 byte 类 型 的 
数组 。 接 下 来 将 这 个 数组 上 传 到 显卡 中 ， 使 其 成 为 一 个 纹理 对 象 ， 最 
终 将 这 个 水 印 的 纹理 绘制 到 原始 视频 帧 的 指定 位 置 ， 得 到 一 个 最 终 的 
带 水 印 的 视频 帧 。 


1.3| 入 libpng 库 


读者 可 以 从 SourceForge 上 下 载 最 新 的 libpng 的 源码 ， 也 可 以 从 本 书 
的 代码 目录 中 找到 笔者 使 用 的 libpng 版 本 的 源码 。 笔 者 没有 使 用 编译 静 
态 库 的 形式 来 引用 libpng 库 ， 因 为 这 样 需要 编译 多 个 平台 ， 而 libpng 库 
里 的 源码 文件 并 不 多 ， 直 接 以 源码 的 形式 引用 也 并 不 复杂 ， 所 以 对 
libpng 库 的 引用 束 采 用 源码 的 方式 。 拿 到 源码 之 后 ， 以 单独 的 一 个 目 孙 
放 入 工程 目录 中 。 


(1) libpng 的 API 介 绍 
首先 来 看 libpng 库 中 的 数据 结构 。 
.png_structp 变 量 : 在 libpng 初 始 化 的 时 候 创 建 ， 由 libpng 库 内 部 使 


用 ， 代 表 libpng 的 调用 上 下 文 ， 开 发 者 不 应 该 对 这 个 变量 进行 访问 。 调 
用 libpng 的 API 时 ， 需 要 把 这 个 参数 作为 第 一 个 参数 传 入 。 


:png_infop 变 量 : 初始 化 完成 libpng 之 后 ， 可 以 从 libpng 中 获得 该 类 
型 变量 指针 。 这 个 变量 保存 了 png 图 乒 数 据 的 信息 ， 开 发 者 可 以 修改 和 


查阅 该 变量 。 


接 下 来 初始 化 libpng 这 个 库 ， 代 码 如 下 : 


png_structp png_ptr = png_create_read_struct(PNG_LIBPNG_VER_STRING， 
NULL, NULL, NULL); 


初始 化 libpng 的 时 候 ， 用 户 可 以 指定 目 定 义 钳 误 处 理 函 数 ， 如 果 无 
须 指定 ， 则 传 入 NULL 即 可 。png_create_read_struct 函 数 返 回 一 个 
png_structp 变 量 ， 前 面 已 经 提 到 过 ， 该 变量 不 应 该 被 用 户 访问 ， 应 该 在 
以 后 调用 libpng 的 函数 时 传递 给 libpng 库 。 


然后 调用 获得 图 片 信息 的 接口 : 


png_infop info_ptr = png_create_info_struct(png_ptr); 


得 到 图 片 信 息 的 结构 体 后 ， 接 下 来 束 设 置 libpng 的 数据 源 了 。 使 用 
自 定义 回调 范 数 设置 libpng 数 据 源 ， 代 码 如 下 : 


ReadDataHandle png_data handle = (ReadDataHandle) { 
{png_data, png_data size}, 0 


}; 
png_set_read_fn(png_ptr, &png_data handle, read_png_data callback); 


实际 上 ， 我 们 把 客户 端 代码 读 取 出 来 的 PNG 岁 乒 鸭 所 有 数据 和 数 
据 的 大 小 封装 到 结构 体 中 ， 然 后 直接 当做 函数 png_set_read_fn 的 第 二 个 
参数 来 传递 给 回调 函数 read_png_data_callback。 对 于 这 个 回调 函数 的 定 
义 ， 具 体 如 下 : 


static void read png_data callback(png_structp png_ptr, 
png_byte* raw_data, png_size t read_ length) { 
ReadDataHandle* handle = png_get_io_ptr(png_ptr); 
const png_byte* png_src = handle->data.data + handle->offset,; 
memcpy(raw_data, png_src, read_length); 
handle->offset += read_length; 


上 述 代 码 首 先 利 用 函数 png_get_io_ptr 取 出 设置 在 数据 源 函 数 中 的 
指针 ， 然 后 将 read_length 里 面 的 数据 按照 要 求 的 数量 拷贝 到 raw_datai 广 
块 内 存 区 域 中 。 


i 1 接 下 来 就 到 了 PNG 图 像 处 理 部 分 ， 步 
又 如 下 。 


1) 读 取 输 入 png 数 据 的 图 片 信息 ， 代 码 如 下 : 


png_read_info(png_ptr, info_ptr); 


该 函数 会 把 输入 png 数 据 的 信息 谈 入 info_ptr 数 据 结构 中 。 
2) 查询 图 像 信 息 ， 代 码 如 下 : 


png_get_IHDR(png_ptr, info_ptr, &width, &height, &bit_depth, 
&color_type, NULL, NULL, NULL); 


前 面 提 到 png_read_info 会 把 输入 png 数 据 的 信息 读 入 info_ptr 数 据 结 
构 中 ， 接 下 来 要 调用 API 查 询 该 信息 。 


3) 设置 png 输 出 参数 (转换 参数 ) ， 代 码 如 下 : 


if (png_get valid(png_ptr, info_ptr, PNG_INFO_tRNS)) 
png_set_tRNS_ to_alpha(png_ptr); 

If (color_type == PNG_COLOR_TYPE_GRAY && bit_ depth < 8) 
png_set_expand_gray 1 2 4 to 8(png_ptr); 

if (color_type == PNG_ COLOR_TYPE_PALETTE) 
png_set_palette to_rgb(png_ptr); 

If (color_type == PNG_COLOR_TYPE_PALETTE || color_type == PNG_COLOR_TYPE_RGB) 
png_set_add_ alpha(png_ptr, OxFF, PNG_FILLER AFTER); 

if (bit_depth < 8) 
png_set_packing(png_ptr); 

else if (bit_depth == 16) 
png_set_scale_16(png_ptr);// 注意 在 高 版 本 的 库 中 应 调用 png_set_strip_16(png_ptr); 


一 步 非 常 重 要 ， 开发 着 可 以 通过 调用 png_set_ xxxxx 国 数 指 定 输 
出 数据 的 格式 ， 比 如 RGB888、ARGB8888 等 输出 数据 格式 。 注 意 代 码 
的 最 后 一 部 分 ， 如 果 位 深度 是 16， 在 libpng 库 提供 的 高 版 本 的 API 中 应 
该 调用 方法 png_set_strip_16。 这 部 分 代码 执行 结束 后 ， 会 将 图 像 转换 


为 RGB888 的 数据 格式 。 当 然 ， 如 果 开 发 者 想 转 换 为 YUV 的 格式 或 者 其 
他 格式 ， 可 以 通过 给 libpng 库 设置 转换 函数 来 实现 ， 这 里 就 不 介绍 了 ， 
如 果 有 需要 ， 读 者 可 以 自己 查阅 libpng 库 的 官方 文档 来 设置 。 


4) 更 新 png 数 据 的 详细 信息 。 


通过 前 面 设 置 png 数 据 的 图 片 信 息 ， 肯 i - 旦 变化 ， 下 面 需要 
调用 函数 png_read_update_info 更 新 图 片 的 


png_read_update_info(png_ptr, info_ptr); 


5) 读 取 png 数 据 。 


首先 计算 出 每 一 行 字 记 buffer 的 大 小 ， 然 后 乘 以 高 度 得 到 整个 图 片 
的 大 小 ， 最 终 调用 读 取 函数 将 数据 全 i 分 配 的 内 存 区 域 中 。 


const png_size t row_ size = png_get_rowbytes(png_ptr, info_ptr); 
const int data _ length = row_size * height,; 
png_byte* raw_image = malloc(data _ length); 
png_byte* row_ptrs[height]; 
png_uint_32 i; 
for (i = 0; i < height; i++) { 
row_ptrsTi] = raw_image + i * row_ size; 


png_read_image(png_ptr, &row_ptrs[0]); 


6) 结束 读 取 数据 。 
通过 png_read_end 结 束 读 取 png 数 据 ， 代 码 如 下 : 


png_read_end(png_ptr, info_ptr); 


7) 释放 libpng 的 内 存 ， 代 码 如 下 : 


png_destroy_read_struct(&png_ptr, &info_ptr, NULL); 


8) 将 解码 出 来 的 数据 封闭 到 结构 体 中 返回 ， 代 码 如 下 : 


return (RawImageData) { 
png_info.width, 
png_info.height, 
raw_image.size, 
get_gl color_format(png_info.color_type), 
raw_image.data}; 


至 此 ，libpng 库 的 API 调 用 束 讨 论 结束 了 ， 六 家 可 以 参考 代码 仓库 
中 的 image.c 文 件 ， 按 下 来 会 将 它 集 成 到 Android 和 iOS 客 户 端 。 


(2) Android 平 台 的 集成 


在 Android 平 台 集 成 的 重点 是 如 何 书写 Android.mk 文 件 ， 将 这 些 源 
码 直 接 集 成 到 我 们 的 NDK 工 程 中 。Android.mk 的 代码 如 下 : 


LOCAL_PATH := $(call my-dir) 

include $(CLEAR_VARS ) 

LOCAL_C_INCLUDES += $(LOCAL_PATH)/Libpng 
LOCAL_EXPORT_LDLIBS := -1z 
LOCAL_SRC_FILES := AN 

./libpng/png.c \ 

./libpng/pngerror.c \ 

./libpng/pngget.c \ 

./libpng/pngmem.c \ 

./libpng/pngpread.c \ 

./libpng/pngread.c \ 
./libpng/pngrio.c \ 
./libpng/pngrtran.c 
./libpng/pngrutil.c 
./libpng/pngset.c \ 
./libpng/pngtrans.c \ 
./libpng/pngwio.c \ 
./libpng/pngwrite.c 
./libpng/pngwtran.c 
./libpng/pngwutil.c 
LOCAL_MODULE := libpng 

include $(BUILD_STATIC_LIBRARY) 


\ 
\ 


从 以 上 代码 可 以 注意 到 ， 除了 正常 地 将 源码 都 包含 到 整个 文件 中 
之 外 ， 还 需要 引入 libz 库 ， 这 样 书写 Android.mk 文 件 之 后 ， 束 可 以 编译 
出 对 应 CPU 平台 下 的 静态 库 了 ， 并 且 可 利用 第 一 步 书写 的 调用 客户 端 
来 完成 解码 操作 。 


(3) iOSs 平 台 的 集成 


iOS 平 台 的 集成 操作 ， 实 际 上 只 要 把 这 个 目录 加 到 Xcode 工程 中 就 
可 ， 但 是 有 一 个 问题 需要 处 理 ， 那 就 是 引入 libz 库 ， 需 要 我 们 在 Build 


Settings 选 项 里 找到 Other Link Flags， 然 后 加 入 -lz， 这 样 才 可 以 使 整个 
工程 编译 通过 。 


2. 浑 染 水 印 ， 完 成 绘制 


浑 染 水 印 其 实 很 商 单 ， 束 是 移 将 原始 视频 画 到 一 个 FBO 上 ， 然 后 
将 水 印 图 片 画 到 相应 的 位 置 上 去 ， 此 时 这 个 FBO 就 相当 于 由 两 个 图 层 
9 帮 层 是 原始 视频 帧 画面 ， 上 层 束 古 水 印 图 片 ， 整 段 代码 结构 如 


glFramebufferTexture2D(GL_FRAMEBUFFER, GL_COLOR ATTACHMENTO, GL_TEXTURE_2D， 
outputTextureID, 0); 

// 1. 将 原始 纹理 作为 底层 绘制 

drawInputTexture( ); 

// 2. 在 合适 的 位 置 绘制 水 印 图 片 

drawOverlayTexture(); 

glFramebufferTexture2D(GL_FRAMEBUFFER, GL_COLOR_ ATTACHMENTO, GL_TEXTURE_2D， 
0, 0); 


ey 


上 述 代码 中 首先 将 outputTextureID 关 联 到 FBO 上 ， 然 后 进行 泻 染 操 
作 ， 演 染 到 FBO 上 的 内 容 台 相当 于 绘制 到 了 outputTextureID 上 ， 最 终 在 
绘制 结束 之 后 ， 将 FBO 天 联 的 纹理 ID 设置 为 0。 在 绘制 过 程 中 ， 绘 制 原 
始 纹理 没有 什么 需要 说 明 的 ， 但 是 ， 为 了 证 绘制 水 印 图 片 的 方法 更 通 
用 ， 这 里 要 详细 讲解 VertexShader 中 的 旋转 平移 缩放 矩阵 的 用 法 。 旋 转 
平移 缩放 矩阵 在 绘图 过 程 中 会 经 常用 到 ， 比 如 在 Android 平 台 的 
SurfaceView 的 目 定义 动画 中 ， 要 将 Bitmap 画 到 画布 上 。 在 OpenGL ES 
中 ， 旋 转 平移 缩放 和 矩阵 用 于 在 VertexShader 中 进行 物体 坐标 的 变换 。 物 
体 坐 标 是 一 个 四 维 同 量 ， 记 为 (x,，y，z，w) 。 下 面 就 介绍 如 何 使 用 
0 。 先 来 看 矩阵 和 向 量 相 乘 的 法 则 ， 如 式 (9-2) 

示 “。 


a b cd x ax+by+cz+dw 
e ff & h y ext+fy+ezt+hw 
ee 人 i ( 9-2) 
i yk ix+ jy+kz+Iw 
m n 0 p)\w mx+ny+oz+ pw 


对 于 GLSL 中 矩阵 和 回 量 的 相 乘 ， 可 以 表示 为 : 


mat4 myMatrix; 
vec4 myVector 
vec4 transformedVector = myMatrix * myVector 


接 下 来 看 一 个 单位 矩阵 的 表示 ， 如 式 (9-3) 所 示 。 


1 0 0 0 这 l*x+O*y+x*zZ+0O*w Xx+0+0+0 Xx 
0 1 0 0 | O*x+1l*y+0*2z+0*w _ 0+y+0+0 | 1 
0 0 1 0 Zz Ox*x+O*y+l*z+0*w 0+0+z+0 之 
0 0 0 1 w Ox*x+O*y+0*2z+1l*w 0+0+0+w W 


由 式 (9-3) 可 见 ， 单 位 矩阵 实际 上 对 回 量 是 没有 任何 意义 的 ， 但 
生理 解 单位 矩 陡 绝对 走 非 常 重要 的 ， 并 且 无 论 是 平移 、 缩 放 还 旦 旅 
nn 所 以 我 们 来 看 乎 移 窍 阵 是 如 何 设 


float translateMartrix[4][4] = { 
1, 0, Tx 


在 二 维 图 像 中 ， 一 般 都 仅 指定 (x，y) 的 坐标 ， 当 仅 指定 了 x 和 y 
坐标 的 时 候 ， 其 他 两 个 坐标 值 (z 和 w) 将 被 自动 指定 为 0 和 1。 由 于 w 
的 值 委 认 为 1， 可 以 看 到 上 述 平移 窍 阵 中 的 Tx、Ty、Tz 束 是 针对 于 w 是 
1， 所 以 就 可 以 在 x，y，z) 三 个 方向 上 作用 位 移 变 量 Tx Ty, 

Tz) 了 。 而 旋转 矩阵 比较 复杂 ， 这 里 只 列举 了 一 个 绕 z 轴 旋转 角度 的 
填 御 ， 而 绕 2 各 用 转 也 是 二 级 世界 里 低 用 最 多 的 旋转 ， 如 下 所 示 : 


float rotateMartrix[4] 
cos(a), sin(a), 


[4] = + 

0, 
-sin(a), cos(a), 0， 
0, 0 1, 

9， 


0 

0 
. 0 
0, 0, 1 
} 


从 以 上 代码 可 以 看 到 绕 z 轴 旋转 束 古 z 轴 不 动 ，x 轴 和 y 轴 去 做 相应 
角度 的 旋转 。 如 末 读 者 想 知 道 绕 x 轴 和 绕 y 轴 旋转 矩阵 的 用 法 ， 可 以 参 
考 代 码 仓 库 中 示例 代码 的 用 法 。 缩 放 和 矩阵 束 会 位 单一 些 ， 如 下 所 示 : 


float ScaleMartrix[4][4] = { 
JeX， 0, 0 


0 2 scaleY, 0, b 

9， 09, scalez, 0 

0 0, 0, 1 
从 上 述 和 矩阵 中 可 以 看 到 ， 当 这 三 个 矩阵 都 确定 之 后 ， 剩 下 的 束 是 


将 三 个 矩阵 合并 成 为 一 个 矩阵 ， 代 码 如 下 : 


mat4 transformMatrix = TranslationMatrix * RotationMatrix * ScaleMatrix; 


这 里 一 定 要 注意 顺序 ， 先 执行 缩放 ， 接 着 旋转 ， 最 后 才 是 平移 
(矩阵 的 左 乘 和 右 乘 得 到 的 结果 是 不 一 样 的 ) 。 只 有 这 样 ， 才 可 以 先 
确定 中 心 点 ， 然 后 再 绕 中 心 点 进行 旋转 ， 以 及 按照 中 心 点 进行 平移 。 
如 里 序 消 乱 了， 就 会 得 到 不祥 的 结果 ， 自 然 也 不 是 我 们 天 其 的 结 


下 面 将 这 个 矩阵 放 入 泻 染 水 印 的 VertexShader 中 ， 并 在 Shader 中 将 
矩阵 去 乘 以 物体 坐标 ， 得 到 的 新 的 物体 坐标 就 是 我 们 期 望 的 水 印 放置 
的 位 置 ， 以 及 达到 旋转 角度 和 缩放 的 程度 。 大 家 可 以 参考 示例 代码 中 
的 利用 OpenGL ES 添加 水 印 效 末 器 的 实例 。 


9.4.2 ”添加 目 定 义 文 字 


给 视频 添加 日 定义 文字 也 是 工作 中 常 磁 到 的 场景 ， 所 以 本 节 讨 论 
如 何 添加 自 定 义 文字 。 首 先 需 要 问 大 家 事先 交代 一 个 背景 ， 束 是 
OpenGL ES 内 部 不 可 以 直接 进行 文字 的 绘制 ， 并 且 对 绘制 的 文字 有 可 
能 还 有 字体 、 阴 影 等 需求 ， 所 以 我 们 使 用 Android 平 台 和 iOS 平 台 将 文 
字 绘 制 到 一 个 Bitmap 上 ; 然后 将 Bitmap 传 递 给 OpenGL ES 系统 ， 最 后 
由 OpenGL ES 进行 处 理 与 洽 染 。 


4 于 合 维 恒生 要 的 文字 


由 于 平台 相关 性 ， 我 们 分 两 部 分 来 介绍 如 何在 Android 平 台 和 iOS 
平台 上 将 文字 制作 成 图 片 。 一 部 分 代码 由 底层 的 OpenGL ES 系统 回调 
客户 端 完 成 ， 该 客户 端 会 将 文字 的 大 小 、 文 字 的 颜色 、 是 否 需要 文字 
阴影 ， 以 及 文字 所 占 位 置 和 对 齐 方式 等 参数 传递 给 客户 端 代 码 ， 客 户 
端 会 按照 要 求 将 文字 绘制 到 一 个 黑色 背景 的 图 片上 (最 终 利用 黑色 的 
alpha 通 道 为 0 的 特性 仅 显 示 出 文字 区 域 ， 所 以 背景 使 用 黑色 ) ， 最 终 
将 图 片 以 RGBA 的 数据 格式 传递 给 OpenGL ES 系统 ，OpenGL ES 系统 
则 会 将 这 个 图 片 再 泻 染 到 视频 上 ， 从 而 得 到 我 们 想 要 绘制 的 结果 。 


根据 上 述 的 设计 ， 首 先 规定 回调 函数 的 接口 ， 代 码 如 下 : 


bool getTextPixels(int width, int height, 
int textLabelLeft, int textLabelTop, 
int textLabelwidth, int textLabelHeight, 
int textColor, int textSize, int textAlignment, char* text, 
float shadowRadius, float textShadowXoffset, 
float textShadowYOoffset, int shadowColor, 
byte[] buffer); 


其 中 ， 第 一 行 的 参数 代表 这 幅 图 片 的 宫 和 高 ， 第 二 行 和 第 三 行 的 
参数 代表 文字 所 在 的 位 置 以 及 文字 的 宽 和 高 ;第 四 行 的 参数 代表 文字 
颜色 、 大 小 、 对 齐 方式 以 及 文字 内 容 ; 第 五 行 和 第 六 行 的 参数 代表 文 


(1) Android 平 台 的 实现 


本 首先 根据 要 求 的 宽 、 高 以 Bitmap 的 形式 制作 出 一 张 图 片 ， 代 码 如 


Bitmap textBitmap = Bitmap.createBitmap(width, height, Bitmap.Config.ARGB 8888); 


制作 的 Bitmap 的 育 景色 默认 为 墨色， 把 这 个 Bitmap 画 到 一 个 画布 
上 上 ， 这 样 束 得 到 了 一 个 黑色 画布 ， 然 后 就 可 以 在 这 个 画布 上 画 文字 
这 个 画布 进行 操作 ， 束 相当 于 对 这 幅 图 片 做 了 相同 的 操作 。 代 
马 如 下 : 


Canvas localCanvas = new Canvas(textBitmap ) ， 


要 想 在 画布 上 男 文 字 ， 首 先 得 有 一 文 画 笔 ， 并 且 要 根据 需求 设置 
画笔 的 参数 ， 代 码 如 下 : 


Paint localpPaint = new Paint(); 
localPaint.setColor(Color.argb(255, Color.red(textColor), 
Color .green(textColor), Color.blue(textColor))); 
localPaint.setShadowLayer(shadowRadius, textShadowXoffset, textShadowYOoffset, 
Color.argb(255, Color.red(shadowColor), 
Color .green(shadowColor), Color.blue(shadowColor))); 
localpaint.setTextSize(textSize); 
localPaint.setAntiAlias(true); 
localpPaint.setTextAlign(Paint.Align.CENTER); 


从 上 述 代 码 中 可 以 看 到 ， 分 别 设 置 了 画笔 的 颜色 、 阴 影 、 文 字 大 
小 、 抗 锯 人 次 ， 以 及 文字 的 对 齐 方式 。 男 笔 设置 完 之 后 ， 在 规定 绘制 的 
区 域 中 绘制 文字 ， 代 码 如 下 : 


Rect targetRect = new Rect(textLabelLeft, textLabelTop, 
textLabelLeft + textLabelwidth, textLabelTop + textLabelHeight); 
FontMetricsInt fontMetrics = localPaint.getFontMetricsInt(); 
int baseline = (targetRect.bottom + targetRect.top - 
fontMetrics.bottom - fontMetrics.top) / 2; 
localCanvas.drawText(text, targetRect.centerX(), baseline, localPaint); 


其 中 ，targetRect 是 文字 要 绘制 的 矩形 区 域 ; baseline 的 计算 是 为 了 
将 文字 绘制 在 这 个 矩形 区 域 坚 直方 同 的 正中 间 。 最 后 将 这 个 Bitmap 的 
内 容 复制 到 一 个 内 存 区 域 中 ， 再 返回 给 调用 端 ， 代 码 如 下 : 


int capacity = width * height * 4; 

ByteBuffer dst = ByteBuffer.allocate(capacity); 
textBitmap.copyPixelsToBuffer(dst),; 
dst.position(0); 

dst.get(buffer, ©0, capacity); 


(2) iOS 平 台 的 实现 


在 iOS 平 台 上 绘制 文字 以 及 图 形 时 ， 使 用 CoreGraphics 中 的 


CGContext。 首先 通过 沉 、 高 以 及 表示 格式 创建 出 一 个 Bitmap， 代 码 如 
下 : 


CGColorSpaceRef colorSpace = CGColorSpaceCreateDeviceRGB(); 

CGContextRef BitmapContext = CGBitmapContextCreate(buffer, width, height, 8, 
width * 4, colorSpace, kcCGImageAlphaNoneSkipLast); 

CGColorSpaceRelease(colorSpace); 


然后 设置 当前 图 乒 的 缩放 和 位 移 矩 阵 ， 代 码 如 下 : 


CGContextTranslateCcTM(BitmapContext, 0.0, height); 
CGContextScaleCTM(BitmapContext, 1.0, -1.0); 


在 进行 文字 的 绘制 之 前 ， 要 先 将 这 个 BitmapContext 作 为 绘制 的 对 


象 ， 类 似 于 OpenGL ES 中 的 绑 定 纹理 ID， 这 里 束 绑 定 当 前 绘制 的 
人 0 并 将 BitmapContext 释 放 掉 。 
码 如 下 : 


UIGraphicsPpushContext(BitmapContext); 
drawTextPixels(param, context),; 
UIGraphicsPopContext(); 
CGContextRelease(BitmapContext); 


最 核心 的 drawTextPixels 束 古 实 际 的 绘制 文子 了 ， 殊 是 在 指定 的 区 


域 按照 指定 的 参数 绘制 文字 ， 代 码 如 下 : 


NSTextAlignment alignment; 

if (textAlignment == -1) { 
alignment = NSTextAlignmentLeft,; 

} else if (textAlignment == 0) { 
alignment = NSTextAlignmentCenter,; 


} else { 
alignment = NSTextAlignmentRight; 


} 

NSMutableParagraphstyle *paragraphstyle = [[NSParagraphstyle 
defaultParagraphstyle] mutableCopy]; 

paragraphStyle.alignment = alignment ， 

NSDictionary *attributes = @{NSFontAttributeName: [UIFont 
systemFontOofSize:textSize],NSForegroundColorAttributeName: 
UIColorFromRGB(textColor),NSParagraphStyleAttributeName: 
paragraphstyle}; 

CGRect rect = CGRectMake(textLabelLeft, textLabelTop, textLabelwidth, 
textLabelHeight); 

[text drawInRect:rect withAttributes:attributes]; 


至 此 ， 将 文字 按照 指定 的 大 小 、 凑 色 以 及 区 域 绘制 到 了 提供 的 内 
存 区 域 上 。 注 意 ， 生 成 的 图 片 除了 文字 外 ， 其 他 的 区 域 都 是 墨色 的 ， 
理解 这 一 后 对 于 第 二 步 “将 这 个 图 片 进 行 演 染 "有 很 重要 的 意义 。 


2. 但 并 文 字 ， 完 成 络 市 


对 于 前 面 生成 的 文字 图 片 ， 除 了 文字 区 域外 ， 其 他 的 区 域 都 是 半 
色 的 ， 并 且 黑 色 区 域 中 每 一 个 像素 的 RGBA 通 道中 A 通 道 的 数值 都 为 
0。 但 是 ， 对 于 文字 区 域 的 像素 ，A 通 道 都 是 有 目 己 的 透明 度 属 性 的 ， 
ee 和 视频 图 片 进行 混合 ， 混 合 代 码 如 


vec4 image = texture2D(imageTexture, v_texcoord); 
vec4 textImage = texture2D(textTexture, v_texcoord); 
float r = textImage.r + (1.0 - textIimage.a)*image.r; 
float 9g textImage.g + (1.0 - textIimage.a)*image.g; 
float b = textImage.b + (1.0 - textIimage.a)*image.b; 
vec4 finalColor = vec4(r, g, b, 1.0); 


从 上 述 代 码 中 可 以 看 到 ， 对 于 文字 图 片 的 法 色 区 域 ， 寿 alpha 通道 
为 0， 则 使 用 的 全 是 原始 视频 帧 的 色 值 ， 对 于 文字 区 域 ， 大 alpha 通 道 
0 则 会 将 两 个 颜色 进行 混合 ， 得 到 最 新 的 色 值 ， 并 将 得 到 的 图 

出 吓 。 


在 文字 的 泻 染 部 分 常 使 用 的 是 淡 入 淡出 ， 即 当 文 字 出 现 的 时 候 以 
淡 入 的 效果 进入 ， 然 后 维持 一 段 时 间 ， 等 文字 要 消失 之 前 要 淡出 的 效 
果 消 失 。 要 实现 相应 的 效果 ， 需 要 引入 一 个 progress 的 计算 ， 并 日 将 
progress 应 用 到 上 述 公 式 中 。 首 先 ， 定 义 以 下 几 个 变量 ， 使 用 
seduenceIn 表 示 文 字 歼 果 器 开始 作用 时 间 ; 使 用 sequenceOnut 表 示 结 束 


作用 时 间 ; 使 用 fadeInEndTime 表 示 出 现 过 程 中 的 淡 入 效果 完成 时 间 
点 ; 使 用 fadeOutStartTime 表 示 退 出 过 程 中 淡出 效果 开始 时 间 点 。 所 以 
最 终 progress 的 计算 公式 如 下 : 


float progress = 1.0; 
int64_t currentTime = pos * 1000; // 换算 为 毫秒 
if(currentTime <= fadeInEndTime){ 

progress = (currentTime - sequenceIn) / (fadeInEndTime - sequenceIn); 
} else if(currentTime >= fadeoutStartTime){ 

float p = (currentTime - fadeOutStartTime) / (Sequenceout - 
fadeoutStartTime ) ， 

progress = 1.0 - p; 


以 上 代码 中 表示 的 意思 是 可 以 把 时 间 轴 分 为 三 部 分 : 第 一 部 分 是 
fademn 部 分 ， 即 代码 中 的 第 一 个 分 文 ，progress 的 值 会 从 0.0 变 化 到 1.0; 
第 二 部 分 是 稳定 显示 部 分 ，progress 的 默认 值 为 1.0; 第 三 部 分 是 
0 即 代 码 中 的 第 二 个 条 件 分 支部 分 ，progress 的 值 会 从 1.0 
变化 到 0.0。 


如 何在 两 个 混合 图 片 中 使 用 progress 呢 ?代码 如 下 : 


vec4 image = texture2D(imageTexture, v_texcoord); 

vec4 textImage = texture2D(textTexture, v_texcoord); 

float r = textImage.r * progress + (1.0 - textImage.a * progress)*image.r; 
float g textImage.g * progress + (1.0 - textImage.a * progress)*image.g; 
float b = textIimage.b * progress + (1.0 - textImage.a * progress)*image.b,; 
vec4 finalColor = vec4(r, g, b, 1.0); 


从 以 上 代码 中 可 以 看 出 ， 当 progress 的 值 为 0 的 上 时候， 最 终 的 色 值 
全 部 都 是 原始 图 片 帧 的 色 值 ， 随 着 各 1.0 变 化 ， 文 字 图 片 有 文字 的 部 分 
会 慢 慢 显示 出 来 ， 黑色 区 域 永远 不 会 显示 ， 当 progress 的 值 达 到 1.0 的 
时 候 就 是 最 开始 的 公式 ， 即 将 两 幅 图 片 按照 文字 图 片 的 alpha 值 进行 混 
合 ， 从 而 作为 最 终 OpenGL ES 的 泻 染 输出 。 


9.4.3” 美 闫 效果 器 


对 于 摄像 尖 采 集 出 的 图 像 ， 尤 其 是 带 有 人 脸 的 图 像 ， 是 必须 要 做 
美 闫 处 理 的 ， 而 这 才 十 本 草 中 的 重点 ， 所 以 本 蔬 重 点 介绍 基于 OpenGL 
ES 美 颜 算法 的 实现 。 美 颜 算法 的 实现 有 很 多 种 ， 一 般 先 通过 磨 皮 算法 
将 皮肤 的 一 些 纹理 ( 辛 瘟 、 黑 斑 等 ) 给 兢 掉 ， 然 后 通过 色相 、 提 腕 等 
效果 右 美 化 肤色 。 整 个 构成 中 ， 磨 皮 算 法 是 最 重要 的 一 环 ， 双 边 滤 波 
算法 是 较为 常用 且 效 果 也 比较 好 的 一 种 磨 庆 做 法 。9.2.4 已 经 讲解 过 
双边 滤波 算法 的 原理 ， 本 市 会 给 出 如 何在 OpenGL ES 的 环境 中 实现 双 
边 滤 波 算 法 ， 以 达到 美 颜 的 效 采 。 


首先 来 看 VertexShader， 代 码 如 下 : 


attribute vec4 position,; 

attribute vec4 inputTextureCoordinate; 

uniform float texelwidthoffset,; 

uniform float texelHeightoffset,; 

const int GAUSSIAN SAMPLES = 5,; 

varying vec4 blurCoordinates[GAUSSIAN_ SAMPLES]; 
vec4 handlestepoffset(vec2 stepoffset) 


return vec4(inputTextureCoordinate.xy + stepoffset, 
inputTextureCoordinate.xy - stepoffset); 


} 
void main() 


gl1_Position = position,; 

vec2 SingleStepoffset = vec2(texelwidthoffset, texelHeightoffset); 

blurCoordinates[0] = inputTextureCoordinate; 

blurCoordinates[1] = handleStepoffset(SingleStepOoffset ) ， 

blurCoordinates[2] = handleStepoffset(singleSstepoffset * 2.0); 

blurCoordinates[3] = handleStepoffset(singleSstepoffset * 3.0); 
i * 


blurCoordinates[4] handJeStepoffset(SingleStepOffset 4.0) 


上 述 代 码 就 是 找 出 当前 像素 点 周围 的 像素 点 的 坐标 ， 而 最 终 输 出 
的 blurCoordinates 数 组 虽然 仪 有 5 个 元 素 ， 但 是 代表 的 是 当前 像素 点 和 
周围 的 8 个 像素 点 ， 其 中 第 1 个 元 素 为 要 计算 的 当前 像素 点 ， 后 面 4 个 元 
素 中 每 个 元 素 实际 上 包含 的 是 2 个 像素 点 ， 分 别 是 正方 同和 反方 同 的 像 
素 点 ， 所 以 共有 8 个 像素 点 。 它 们 会 作为 当前 像素 点 的 参考 像素 点 ， 而 
人 
公 了 下 : 


texelwidthoffset = 1.0 / width ， 
texelHeightoffset = 1.0 / height 


当然 ， 如 果 想 扩大 参考 像素 点 的 范围 ， 可 以 增 大 这 两 个 步 长 值 ， 
最 终 VertexShader 的 输出 结果 就 是 blurCoordinates 这 个 向 量 数 组 ， 这 个 
回 量 数组 将 会 传递 到 FragmentShader 中 。 接 下 来 的 FragmentShader 代 三 
比较 复杂 ， 所 以 分 开讲 解 。 首 先 来 看 由 客户 端 代码 传递 过 来 的 uniform 
的 值 和 VertexShader 传 递 过 来 的 像素 坐标 点 数据 : 


uniform sampler2D inputIimageTexture; 

const Jowp int GAUSSIAN_ SAMPLES = 5; 

varying highp vec4 blurCoordinates[GAUSSIAN_ SAMPLES]; 
uniform mediump float distanceNormalizationFactor; 
lowp vec4 sum; 

lowp float gaussianweightTotal,; 


如 上 述 代码 所 示 ，distanceNormalizationFactor 的 值 是 客户 端 传递 
进来 的 ， 代 表 距 离 归 一 化 的 因子 ， 默 认 值 是 4.0， 取 值 范围 是 [1.0， 
8.0]。 首 移 这 个 值 用 来 确定 当前 参考 像素 点 是 否 是 边缘 (edge) 的 参 
数 ， 然 后 根据 是 否 是 边缘 来 确定 作为 一 个 有 效 的 参考 点 的 权重 值 。 最 
后 两 个 变量 sum 和 gaussianWeightTotal 是 用 来 计算 像素 值 相 加 总 和 和 权 
aa 完 把 当前 像素 点 的 像素 值 取出 

， 代 的 如 下 : 


lowp vec4 centralColor 
centralColor = texture2D(inputIimageTexture, blurCoordinates[0].xy); 


由 于 双边 滤波 是 基于 距离 (高 斯 分 布 ) 与 像素 值 差距 双 维度 考虑 
权重 的 算法 ， 所 以 每 一 个 领域 像素 点 的 计算 都 要 考虑 这 两 个 维度 的 
素 。 高 斯 权重 的 分 布 如 下 : 


0.05,0.09,0.12,0.15,0.18,0.15,0.12,0.09,0.05 


所 有 高 斯 权重 加 起 来 的 总 值 为 1.0， 接 下 来 通过 中 心 像素 点 的 权重 
计算 当前 像素 点 的 值 ， 并 加 到 总 像素 值 中 去 ， 同 时 也 要 把 权重 值 加 到 
总 的 权重 值 中 去 ， 代 码 如 下 : 


lowp float gaussianweightTotal,; 
lowp vec4 sum; 
gaussianweightTotal = 0.18; 

sum = centralColor * 0.18; 


现在 ， 按 照 高 斯 分 布 将 剩余 的 四 组 领域 像素 点 计算 出 来 ， 先 来 看 
最 相近 的 一 组 ， 代 码 如 下 : 


vec4 sampleColor = texture2D(inputIimageTexture, blurCoordinates[1].xy); 

float distanceFromCentralColor = min(distance(centralColor, sampleColor) * 
distanceNormalizationFactor, 1.0); 

float gaussianwWeight = 0.15 * (1.0 - distanceFromCentralColor); 

gaussianweightTotal += gaussianWweight; 

Sum += sampleColor * gaussianweight; 

sampleColor = texture2D(inputImageTexture, blurCoordinates[1].zw); 

distanceFromCentralColor = min(distance(centralColor, sampleColor) * 
distanceNormalizationFactor, 1.0); 

gaussianweight = 0.15 * (1.0 - distanceFromCentralColor); 

gaussianweightTotal += gaussianWweight; 

Sum += sampleColor * gaussianweight; 


在 这 段 代 人 码 中 ，blurCoordinates 的 前 两 个 x 和 y 代 表 正 辣 的 一 个 像素 
点 ， 后 两 个 z 和 w 代 表 反 回 的 一 个 像素 点 。 接 着 利用 GLSL 的 内 般 函 数 
distance 计 算出 当前 像素 点 和 中 心 像素 点 的 像素 差 值 ， 再 将 差 值 乘 以 距 
离 归 一 化 因子 ， 并 与 1.0 比 较 ， 取 较 小 的 值 ， 得 到 的 这 个 值 束 代表 当前 
像素 点 与 中 心 像素 点 的 颜色 差距 。 值 越 小 ， 代 表 差 距 越 小 ， 那 么 可 以 
去 做 模糊 处 理 。 假 设 这 个 值 是 1.0， 则 代表 不 拿 这 个 像素 值 参 与 中 心 像 
素 点 的 计算 ， 利 用 高 斯 权重 值 乘 以 1.0 减 去 这 个 值 ， 得 到 距离 与 像素 值 
两 个 维度 考虑 的 权重 值 。 最 后 计算 完毕 剩余 的 三 组 值 ， 得 到 最 终 像 素 
值 和 权重 的 和 。 将 像素 值 总 和 除 以 权重 值 总 和 得 到 最 终 这 个 像素 点 的 
像素 值 ， 代 码 如 下 : 


gl1_FragColor = sum / gaussianweightTotal; 


处 理 完 所 有 像素 点 后 ， 就 得 到 了 处 理 后 的 图 像 ， 这 个 Program 只 是 
做 了 一 个 横 轴 方 向 的 工作 ， 然 后 拿 着 这 个 Program 的 输出 ， 再 利用 这 个 
Program 做 一 个 纵 轴 方 向 的 工作 ， 等 两 遍 都 处 理 完毕 之 后 ， 这 幅 图 片 的 
磨 皮 工作 就 做 好 了 。 然 后 加 上 提 亮 、 增 加 对 比 度 、 调 整 饱和 度 等 细节 
就 可 达到 一 个 整体 美 颜 的 效果 。 


9.4.4” 动 图 幅 纸 效果 硬 


”对 于 一 个 成 熟 的 录制 视频 软件 来 讲 ， 除 了 美 颜 处 理 外 ， 还 需要 给 
视频 增加 一 些 有 趣 的 功能 ， 最 常见 的 就 是 卖 萌 、 要 酷 的 动态 贴纸 。 本 
节 讨 论 如 何 实现 动 图 贴纸 效果 器 。 


动 图 贴纸 效果 猎 也 有 很 多 种 实现 方法 ， 其 中 一 种 实现 方法 是 使 用 
中 f 格 式 的 图 片 来 做 动 图 。 这 种 实现 方法 的 优点 是 图 片 的 压缩 比 大 ; 缺 
点 是 gif 格式 的 岁 片 由 于 目 身 压缩 算法 的 问题 ， 在 边缘 部 分 会 有 日 边 ， 
从 而 导致 不 好 的 用 户 体 验 。 男 外 一 种 实现 方法 就 古 使 用 png 序 列 图 来 做 
动 图 。 虽 然 这 种 实现 需要 的 图 片 容量 比较 大 ， 但 可 以 使 用 压缩 工具 在 
保证 同等 质量 的 前 提 下 来 提高 压缩 比 ， 其 优点 是 最 终 绘 制 出 来 的 动 
鸡 霖 非 肖 好。 所 以 本 书 葡 是 以 png 序 列 图 的 形式 来 实现 动 图 贴纸 鸡 琳 
五 O 


既然 是 png 序 列 图 ， 那 么 每 一 帧 图 片 都 是 一 张 png 图 片 ， 而 将 一 张 
png 图 片 如 何 进 行 解码 并 且 泻 染 到 视频 上 ， 在 9.4.1 已 经 详细 讲解 过 ， 
而 应 用 在 动 图 贴 级 上 其 实 就 是 从 单个 渲染 到 多 个 泻 染 的 过 程 ， 这 可 能 
没有 什么 技术 含量 ， 但 是 要 想 达到 一 个 比较 流畅 以 及 快速 的 效果 ， 可 
A 所 以 本 节 会 着 重 从 如 何 优化 整体 体验 的 方面 
进行 讲解 。 


但 是 ，png 序 列 图 的 泻 染 也 不 是 来 一 帧 视频 帧 就 绘制 一 张 png 图 

片 ， 而 是 依据 不 同 动 图 贴纸 的 配置 信息 来 安排 的 ， 动 图 贴纸 也 有 自己 
的 宽 、 高 、 印 s 等 原始 信息 的 配置 。 如 之 前 所 说 的 一 样 ， 在 配置 文件 中 
应 该 描述 这 组 png 序 列 图 的 宽 和 高 ， 因 为 一 组 序列 图 中 的 宽 和 高 都 是 一 
致 的 ， 所 以 就 有 了 前 两 个 参数 width 和 height。 如 果 知 道 这 组 png 序 列 图 
的 名 称 (比如 Say Hi) 和 png 序 列 图 的 个 数 (比如 6) ， 那 么 png 序 列 图 
的 名 称 依次 是 Say Hi0，Say Hi1，...，Say Hi5， 所 以 就 有 了 中 间 的 两 
个 参数 imageName 和 imageCnt。 接 下 来 就 是 fps 的 信息 ， 即 每 张 png 图 片 
寺 续 的 时 间 以 imageIntervalInSec 来 表示 (比如 0.125 束 代表 以 125ms 作 
为 时 间 的 间隔 ) ， 最 后 一 个 参数 就 是 这 组 序列 图 的 持续 时 间 ， 即 序列 
图 在 视频 上 总 共 呈 现 的 时 间 ， 使 用 durationInSec 表 示 。 一 个 整体 的 配 
置 文件 (JSON 格 式 ) 如 下 : 


"width": 240, 

"height": 240, 
"durationInSsSec": 5, 
"imageName": "Say Hi", 
"imageCount": 6, 
"imageIntervalInSec": 0.125 


动画 设计 人 人员 可 以 使 用 AE 设 计 好 动画 之 后 ， 守 出 为 png 序 列 图 ， 

然后 在 使 用 压缩 工具 (tinypng: https://tinypng.com/) 压缩 之 后 ， 再 上 
传 到 服务 器 上。 在 上 传 过程 中 可 以 填写 一 些 信息 ， 上 传 之 后 ， 服 务 器 
端 会 将 这 些 信息 组 效 成 为 JSON 信 息 并 写 入 config.json 文 件 中 ， 并 和 png 
序列 图 打包 到 一 起 ， 最 终 压 缩 成 为 一 个 压缩 包 。 客 户 端 使 用 时 先 下 载 
这 个 压缩 包 ， 然 后 进行 解压 缩 ， 使 其 成 为 一 个 目录 之 后 ， 找 到 
config.json 进 行 解析 ， 束 可 以 得 到 相应 的 原始 信息 。 对 于 图 片 的 完整 路 
径 ， 束 是 直接 按照 当前 目录 加 上 imageName 和 和 当前 的 png 序 列 图 的 下 标 
以 及 png 的 后 缀 名 ， 人 然后 根据 fps 进 行 解码 ， 将 相应 的 图 片上 传 到 显卡 
上 ， 最 终 渔 染 到 视频 帧 上 。 


说 到 优化 体验 ， 无 非 就 是 提升 整体 性 能 。 在 当前 场景 下 ， 提 升 性 
能 的 方法 惑 是 缓存 ， 即 把 解码 之 后 上 传 到 显存 中 所 形成 的 纹理 对 象 组 
存 起 来 ， 当 下 一 次 使 用 的 时 候 ， 先 判断 是 需要 解码 上 传 ， 还 是 可 以 直 
接 从 缓存 池 中 取出 来 使 用 。 所 以 缓存 的 构建 吏 是 本 世 的 重点 ， 下 面 详 
细 介 绍 如 何 搭建 一 个 纹理 缓存 系统 。 


首先 封 流出 一 个 纹理 对 象 的 类 来 表示 一 个 纹理 ， 其 中 应 该 包括 这 
个 纹理 的 宽 、 高 及 纹理 ID， 以 及 当前 对 象 的 引用 计数 右 。 引 用 计数 大 
大 于 0， 代 表 当 前 纹理 对 象 正 在 使 用 ， 不 应 该 被 外 界 看 到 并 使 用 ;引用 
en 代表 当前 对 象 处 于 可 用 状态 ， 可 以 交 给 外 界 使 用 。 代 码 
中: 


class GPUTexture { 
private: 

int width ， 

int height; 

GLuint texId; 

int referenceCount,; 

GLuint createTexture(GLsizei width, GLsizei height ) ， 
public: 

GPUTexture( ); 

~GPUTexture( ); 

int getwidth(){ 

return width 


}; 

int getHeight(){ 
return height; 

}; 

GLuint getTexId(){ 
return texId; 


void init(int width, int height); 
void dealloc(); 
void lock(); 
void unLock(); 
void clearAllLocks(); 
}; 


从 以 上 代码 中 可 以 看 到 ， 提 供给 客户 端 代码 的 方法 如 下 :初始 化 
方法 ， 用 于 创建 出 纹理 对 象 ， 锁 定 与 解锁 方法 ， 用 于 增加 或 者 减少 引 
用 计数 禹 ;销毁 方法 ， 用 于 释放 显卡 中 的 纹理 对 象 。 由 于 篇 幅 的 天 
系 ， 殉 不 再 资 述 了 。 


下 面 构造 缓存 系统 。 首 先 ， 以 单 例 模 式 来 构建 缓存 这 个 类 ， 因 为 
它 在 整个 系统 中 只 有 一 份 ， 代 码 如 下 : 


class GPUTextureCache { 
private: 
GPUTextureCache( ); 
static GPUTextureCache* Instance 
public: 
static GPpUTextureCache* GetInstance(); 
virtual ~GPUTextureCache( ); 


}; 


然后 应 该 有 一 个 map 类 型 的 属性 ， 用 于 盛 放 分 配 出 来 的 所 有 
GPUTexture 对 象 。 有 既然 是 map 类 型 的 属性 ， 束 必须 有 一 个 Key 的 分 配 规 
则 ， 这 个 Key 能 唯一 地 标识 纹理 对 象 。 前 面 在 介绍 纹理 的 章节 中 讲 到 
过 ， 宽 、 高 和 表示 格式 可 以 唯一 地 标识 一 个 纹理 对 象 ， 而 在 我 们 的 系 
统 中 ， 表 示 格 式 使 用 的 是 默认 的 RGBA 格 式 ， 所 以 仅 使 用 宽 和 高 就 可 
以 标识 纹理 对 象 ， 生 成 规则 如 下 : 


string GPUTextureCache::getQueueKey(int width, int height) { 
string queueKkey = "tex_"; 
char widthBuffer[8]; 
sprintf(widthBuffer, "%d", width); 
queueKey.append(string(widthBuffer)); 
queueKey.append("_"); 
char heightBuffer[8]; 
sprintf(heightBuffer, "%d", height); 
queueKey.append(string(heightBuffer)); 


return queueKkey ; 


} 


生成 了 Key 之 后 ， 那 map 的 Value 应 该 是 什么 类 型 的 ? 应 该 是 一 个 
链表 的 形式 。 我 们 可 以 思考 png 序 列 图 这 个 场景 ， 使 用 第 一 张 图 片 占用 
一 个 纹理 对 象 之 后 ， 当 遇 到 后 续 的 图 片 还 需要 同样 Key 的 纹理 对 象 
上 时， 就 需要 一 个 链表 来 存放 这 个 Key 所 代表 的 所 有 纹理 对 象 ， 所 以 根 
据 Key 和 Value 束 可 构造 出 这 个 map 对 象 ， 如 下 : 


map<string, list<GPUTexture*> > textureQueueCache,; 


接 下 来 是 提供 接口 方法 ， 用 来 从 缓存 系统 中 获取 对 应 的 纹理 对 象 
人 。 先 来 看 获取 纹理 对 象 ， 代 
马 如 下 : 


GPUTexture* GPUTextureCache::fetchTexture(int width, int height) { 
GPUTexture* texture = NULL; 
string queueKkey = getQueuekKey(width, height); 
map<string, list<GPUTexture*> >::iterator itor,; 
itor = textureQueueCache.find(queuekey); 
if (itor != textureQueueCache.end()) { 
if ((itor->second).size() > 0) 
texture = (itor->second).front(); 
(itor->second).pop_front(); 
} else { 
texture = new GPUTexture()， 
texture->init(width, height); 


} else 
list<GPUTexture*> textureQueue,; 
texture = new GPUTexture()， 
texture->init(width, height); 
textureQueueCache[queuekey] = textureQueue,; 


return texture; 


上 述 代 码 首 移 根 据 客 户 端 传递 过 来 的 宽 和 高 得 到 唯一 标识 的 
Key， 然 后 拿 这 个 值 去 map 中 寻找 链表 。 如 果 找 不 到 ， 则 代表 这 个 Key 
类 型 的 纹理 之 前 从 未 创建 过 ， 所 以 要 创建 一 个 链表 ， 并 以 这 个 值 为 
Key 放 入 Map 中 ， 同 时 创建 一 个 GPUTexture 对 象 并 返回 。 注 意 这 里 不 
要 放 到 这 个 链表 中 ， 因 为 如 果 放 入 到 链表 中 ， 这 个 纹理 对 象 残 有 可 能 
会 被 外 界 所 使 用 ， 如 果 按 照 这 个 Key 找 到 对 应 的 链表 ， 就 可 以 判断 这 
个 链表 中 是 否 有 可 用 的 元 素 ， 如 果 有 则 弹出 ， 如 果 没 有 则 创建 并 返回 


给 客户 端 。 接 下 来 看 如 何 将 不 再 使 用 的 纹理 对 象 返 还 到 缓存 系统 中 ， 
代码 如 下 : 


void GPUTextureCache: :returnTextureToCache(GPUTexture* texture 
string queueKkey = getQueuekKey(texture->getwWidth(), texture->getHeight()); 
map<string, list<GPUTexture*> >::iterator itor,; 
itor = textureQueueCache.find(queuekey); 
if (itor != textureQueueCache.end()) { 
(itor->second).push_back(texture); 


如 上 述 代 码 所 示 ， 寿 客户 端 调 用 这 个 方法 ， 则 代表 GPUTexture 对 
象 对 于 客户 端 来 说 无 需 再 使 用 ， 所 以 在 实现 中 也 是 根据 这 个 纹理 对 象 
的 宽 和 高 构造 出 唯一 标识 的 Key， 然 后 在 Map 中 找 出 对 应 的 链表 ， 并 放 
到 链表 的 末尾 ， 而 这 个 链表 无 形 之 中 也 是 一 个 久未 使 用 的 数据 结构 的 
表示 。 如 果 对 这 个 缓存 系统 所 占用 的 显存 有 一 个 上 限 ， 那 么 就 可 以 在 
这 些 链 表 的 头 部 开始 清理 资源 ， 即 达到 一 个 LRUCache 的 效果 。 这 里 谍 
不 再 展示 ， 读 者 可 以 目 行 完 成 。 


这 个 缓存 系统 可 以 应 用 到 png 序 列 图 效果 大 中 ， 使 得 整个 效果 亏 不 
用 频繁 地 分 配 和 释放 显存 。 同 时 ， 在 效果 器 中 可 以 再 建立 一 层 缓存 ， 
以 避免 频 蛇 的 解码 操作 ， 使 用 一 个 数组 解码 并 上 传 到 显卡 中 将 
GPUTexture 对 象 分 别 存储 起 来 ， 再 按照 顺序 加 入 数组 中 ， 按 照 配 置 文 
件 解析 出 fps 信 息 ， 计 算出 当前 要 使 用 的 Index 后 ， 束 可 以 直接 在 数组 中 
取出 GPUTexture 对 象 使 用 了 ， 这 束 古 一 个 整体 的 优化 方案 。 


9.4.5 “主题 效果 器 


给 一 个 视频 增加 主题 ， 比 如 下 雨天 、 老 电影 、Sunshine 等 主题 ， 
这 在 一 些 短视 频 社区 App 里 是 一 项 基本 的 功能 。 具 体 如 何 实现 主题 效 
果 器 ， 就 是 本 节 要 讨论 的 内 容 。 


对 于 主题 效果 器 来 讲 ， 一 般 会 分 为 以 下 处 理 流程 ， 片头 的 布置 、 
作者 作品 名 的 泻 染 、 片 中 的 主题 效 末 、 对 视频 源 的 处 理 ， 以 及 片尾 的 
修饰 预 处 理 、 这 是 一 整个 处 理 的 过 程 。 对 于 这 个 过 程 的 描述 ， 一 般 会 
使 用 配置 文件 实现 ， 这 样 在 App 中 就 可 以 通过 热 更 新 来 随意 增加 主题 
了 。 本 世 介 绍 主题 效果 璐 的 协议 配置 ， 通 过 协议 配置 ， 会 更 加 清楚 整 
个 主题 需要 哪些 基本 效果 郁 ， 这 其 中 最 主要 的 一 个 效 采 郁 了 吏 是 整个 主 
题 背景 的 展示 〈 比 如 下 雨天 、 球 雪 或 者 阳光 等 ) 。 下 面 完 介绍 主题 背 
景 效 采 融 的 实现 。 


至 景 效 灯 器 的 实现 分 为 两 种 。 一 种 是 使 用 粒子 效果 器 实现 。 这 种 
实现 的 优点 是 有 比较 好 的 性 能 ;其 缺点 是 设计 人 员 和 开发 者 的 沟通 成 
本 比较 高 。 一 种 是 使 用 视频 实现 。 这 种 实现 的 优点 是 实现 简单 ， 降 低 
了 设计 人 员 和 开发 者 的 沟通 成 本 ;其 缺点 是 对 于 性 能 来 讲 ， 并 不 是 一 
种 最 好 的 实现 方式 。 笔 者 本 节 会 和 大 家 一 起 讨论 第 二 种 实现 ， 即 使 用 
视频 实现 主题 效果 句 。 


既然 是 一 个 视频 ， 那 么 要 有 一 个 解码 器 来 将 这 个 主题 视频 一 幅 一 
央 地 解码 出 来 ， 然 后 按照 这 个 视频 的 fps 信 息 对 应 地 泻 染 到 原始 视频 帧 
上 。 解 码 的 内 容 可 以 参看 第 4 章 ， 而 泻 染 工作 是 这 里 介绍 的 重点 ， 爷 看 
一 帧 主题 视频 的 特征 ， 如 图 9-7 所 示 。 


图 9-7 摘 述 了 视频 主题 的 一 帆 图 像 ， 从 图 中 可 看 到 中 间 部 分 几乎 接 
近 黑 色 ， 而 下 雨天 希望 视频 帧 的 中 间 部 分 (可 能 是 人 脸 ， 可 以 全 部 展 
现 出 来 ， 如 何 将 这 个 视频 的 主题 帧 和 原始 视频 帧 进行 琶 加 呢 ? 可 以 使 
用 前 面 介 绍 的 滤 色 亡 合 ， 这 里 使 用 得 表 的 形式 具体 实现 ， 即 先 使 用 
Photoshop 生 成 一 个 滤 色 混合 的 查找 表 ， 所 有 的 混合 模式 都 可 避免 直接 
计算 ， 而 通过 查 表 的 方式 得 到 对 应 的 值 ， 这 其 实 是 在 提升 性 能 ， 以 避 
免 大 量 的 计算 ， 同 时 可 以 更 加 目 由 地 控制 从 黑色 到 日 色 渐变 的 快速 过 
程 。 根 据 不 同 的 主题 ,设计 人 人 员 可 以 直接 调 好 这 个 滤 色 混合 查找 表 ， 


再 把 这 个 查找 表 的 图 片 放 入 资源 文件 中 ， 下 雨天 生成 的 滤 色 混合 查找 
表 图 片 如 图 9-8 所 示 。 


9-7 


9-8 


将 图 9-8 的 这 个 滤 色 混合 的 图 片 作 为 blendTexture 传 递 给 显卡 ， 而 
FragmentShader 中 的 具体 处 理 代码 如 下 : 


precision lowp float 

varying highp vec2 textureCoordinate; 
uniform sampler2D videoTexture; 
uniform sampler2D themeTexture; 
uniform sampler2D blendTexture; 

void main() 


vec4 texel = texture2D(videoTexture, textureCoordinate); 

vec3 themeTexel = texture2D(themeTexture, textureCoordinate).rgb; 
texel.r = texture2D(blendTexture, vec2(themeTexel.r, texel.r)).r; 
texel.g = texture2D(blendTexture, vec2(themeTexel.g, texel.g)).g; 
texel.b = texture2D(blendTexture, vec2(themeTexel.b, texel.b)).b; 
gl1_FragColor = vec4(texel.r, texel.r, texel.r, 1.0); 


按照 上 述 代码 处 理 完 毕 之 后 ， 原 始 视 频 束 和 主题 视频 进行 了 混 
合 ， 至 此 完成 了 视频 主题 效果 右 。 接 下 来 介绍 主题 文件 的 协议 配置 ， 
开发 者 或 者 主题 UI 设计 人 员 会 将 所 用 到 的 所 有 资源 和 这 个 配置 文件 打 
包 到 一 个 目 孙 中 ， 并 压缩 存储 到 服务 右 里 。 当 客户 端 需 要 下 载 的 时 
候 ， 束 将 这 个 压缩 包 从 服务 右 中 下 载 下 来 ， 然 后 解压 ， 解 析 配 置 文 
件 ， 并 根据 配置 文件 中 的 描述 构建 出 一 个 主题 效果 器 的 数据 结构 ， 以 
便 进 行 后 续 泻 染 处 理 。 


现在 重点 就 是 如 何 来 指 述 主题 协议 。 相 较 于 上 一 小 节 的 png 序 列 图 

的 配置 文件 ， 主 题 配置 文件 会 更 加 复杂 ， 所 以 可 以 使 用 XML 文 件 实 
现 。 一 般 情 况 下 ， 一 个 主题 由 多 个 效 末 器 构成 ， 从 头 到 尾 可 以 分 为 片 
头 、 作 者 作品 名 展示 、 片 中 主题 效果 、 片 尾 处 理 等 。 而 每 一 个 效 末 霹 
都 会 有 一 个 开始 作用 时 间 和 结束 作用 时 间 ， 以 便于 在 泻 染 某 一 帧 视频 
帧 的 时 候 ， 可 以 将 视频 帧 的 时 间 稚 作为 参考 ， 从 而 决定 这 一 帧 视频 帧 
到 压 要 经 过 哪 几 个 效果 器 的 处 理 ， 这 样 束 可 以 确定 所 有 效果 器 都 应 该 
有 两 个 参数 了 ， 即 sequenceIn (代表 开始 作用 时 间 ) 和 sequenceOut 

(代表 结束 作用 时 间 ) 。 每 一 个 效果 器 都 应 该 有 一 个 全 局 唯一 的 名 字 
作为 自己 的 标识 ， 所 以 应 该 还 有 一 个 fterName 来 作为 自己 的 效果 絮 名 
称 。 此 外 ， 每 个 效果 如 都 应 该 有 自己 独 有 的 一 些 配 置 变 量 ， 比 如 文字 
效果 器 里 需要 标注 好 文字 的 大 小 、 闫 色 及 位 置 等 信息 。 最 终 将 各 种 效 
0 从 而 生成 一 个 主题 效果 器 。 先 来 看 一 个 主题 的 配置 文 

， 代 人 的 如 下 : 


<?xml1 version="1.0" encoding="UTF-8"?> 
<theme cover="icon.png" themeName=" 下 南大 "> 
<filterList> 
<filter filterName="header_scene" sequenceIn="0" sequenceOut="4500"> 
<param id="video path" value="head fade scene.mp4" type="8"/> 


<param id="screen fade out in secs" value="3000" type="1"/> 
</filter> 
<filter filterName="text_scene" sequenceIn="600" sequenceOut="3500"> 
<param id="scene width" value="480" type="1"/> 
<param id="scene height" value="480" type="1"/> 
<param id="scene text left" value="40" type="1"/> 
<param id="scene text width" value="400" type="1"/> 
<param id="scene text top" value="240" type="1"/> 
<param id="scene text height" value="28" type="1"/> 
<param id="scene text alignment" value="0" type="1"/> 
<param id="scene text color" value="25, 85, 92, 255" type="5"/> 
<param id="scene text shadow radius" value="1" type="2"/> 
<param id="scene text shadow x offset" value="1" type="2"/> 
<param id="scene text shadow y offset" value="1" type="2"/> 
<param id="text shadow color" value="102, 102, 102, 255" type="5"/> 
<param id="scene text size" value="24" type="1"/> 
<param id="scene text type" value="1" type="1"/> 
<param id="scene fade in end time" value="1410" type="1"/> 
<param id="scene fade out start time" value="3000" type="1"/> 
</filter> 
<filter filterName="blur_scene" sequenceIn="2000" sequenceOut="4500"> 
</filter> 
<filter filterName="video_scene" sequenceIn="10" sequenceOut="-10"> 
<param id="black board path" value="rain_overlay.mp4" type="8"/> 
<param id="map pic path" value="overlay_screen.png" type="8"/> 
<param id="amaro map pic path" value="amaroMap.png" type="8"/> 
</filter> 
<filter filterName="blur_scene" sequenceIn="-3000" sequenceOut="0"> 
<param id="blur scene ascend flag" value="1" type="3"/> 
</filter> 
<filter filterName="trailer_scene" sequenceIn="-3000" sequenceOut="0"> 
<param id="duration" value="1.5" type="2"/> 
<param id="scene width" value="480" type="1"/> 
<param id="scene height" value="480" type="1"/> 
<param id="scene text lJeft" value="40" type="1"/> 
<param id="scene text top" value="270" type="1"/> 
<param id="scene text width" value="400" type="1"/> 
<param id="scene text height" value="40" type="1"/> 
<param id="scene text color" value="250, 247, 249, 255" type="5"/> 
<param id="text shadow radius" value="1" type="2"/> 
<param id="text shadow x offset" value="1" type="2"/> 
<param id="text shadow y offset" value="1" type="2"/> 
<param id="text shadow color" value="102, 102, 102, 255" type="5"/> 
<param id="scene text size" value="26" type="1"/> 
<param id="scene text type" value="1" type="1"/> 
<param id="scene text alignment" value="0" type="1"/> 
<param id="scene overlay path" value="trailer.png" type="8"/> 
</filter> 
</filterList> 
</theme> 


我 们 看 一 下 这 个 配置 文件 的 意义 ， 这 个 主题 的 名 称 叫 下 雨天 ， 封 
面 图 是 icon.png 图 片 ， 具 体 主题 里 包含 的 效果 絮 是 fterlist 这 个 标签 里 
包含 的 。 首 先是 片头 效果 器 ， 使 用 的 视频 是 将 当前 目录 里 的 
head_fade_scene.mp4 作 为 视频 源 ， 作 用 时 则 从 0 开始 ， 到 4500ms 结 
然后 ， 从 600ms 到 3500ms 这 个 时 间 段 内 会 把 作者 名 以 及 作品 名 以 文字 


[© 


效果 需 的 形式 绘制 到 视频 上 ， 有 具体 文字 的 颜色 、 大 小 、 绘 制 区 域 都 在 

参数 中 。 接 下 来 从 2000ms 到 4500ms 这 个 时 间 段 内 会 有 一 个 模糊 的 效果 
絮 产 生 人 作用， 默认 从 非常 模糊 到 逐渐 清晰 。 以 上 3 个 效果 器 一 起 构造 了 
这 个 厂 头 效果 絮 ， 再 在 整个 视频 中 间 使 用 视频 附加 效果 右 ， 使 用 的 视 

频 源 是 rain_overlay.mp4 视 频 源 。 接 着 ， 从 片尾 减 去 3000ms (这 就 是 配 
置 里 -3000 的 含义 ) ， 虽 然 到 片尾 也 会 有 一 个 模糊 效果 器 产生 作用 ， 但 
是 是 从 清晰 逐渐 过 渡 到 模糊 〈 这 就 是 标签 内 部 参数 ascend flag 的 舍 

义 ) ， 并 且 在 最 后 有 一 个 片尾 效果 器 ， 即 在 一 个 带 有 logo 的 图 片上 绘 

制作 品 的 名 字 和 作者 的 名 字 ， 具 体 的 文字 以 及 logo 的 图 片 配置 在 这 个 

标签 内 部 的 参数 中 ， 这 个 效果 器 和 之 前 的 模糊 效果 姨 共 同 构 造成 为 一 

个 片尾 效果 器 。 这 就 是 整个 主题 配置 文件 所 描述 的 场景 ， 读 者 可 以 参 

看 本 章 代码 目录 中 的 下 雨天 视频 主题 。 


9.5 本章 小 结 


本 革 首 先 介绍 了 图 像 的 基本 处 理 ， 然 后 讨论 了 一 些 复杂 的 图 像 处 
理 算法 ， 最 后 两 条 从 两 种 技术 架构 的 角度 分 别 介绍 了 如 何 使 用 图 像 处 
理 的 技术 ， 读 者 可 以 根据 目 己 的 系统 所 使 用 的 技术 架构 来 选用 技术 实 
现 。 本 章 结束 之 后 ， 在 第 7 章 最 后 留 下 的 两 个 问题 ， 其 实 束 都 解决 了 。 
接 下 来 第 10 章 会 把 第 8 章 和 第 9 章 学 到 的 内 容 应 用 到 第 7 章 的 视频 录制 
中 ， 最 终 会 构造 出 一 球 专业 的 视频 录制 应 用 。 


第 10 草 ”专业 的 视频 永 制 应 用 实践 


本 章 会 在 第 7 章 的 基础 上 ， 再 结合 第 8 章 和 人 第 9 章 的 内 容 ， 完 成 一 个 
专业 视频 的 孙 制 应 用 。 一 个 视频 永 制 的 应 用 分 为 三 部 分 : 孙 制 视频 并 
分 、 编 辑 部 分 和 离线 保存 部 分 。 当 然 ， 如 采 坪 直播 应 用 的 推 滨 端 ， 那 
么 只 有 第 一 部 分 的 内 容 。 其 中 第 一 部 分 的 输入 是 摄像 头 和 麦 元 风 ， 而 
第 二 部 分 和 第 三 部 分 的 输入 是 解码 右 。 解 码 大 在 第 3 章 中 已 经 讲解 过 ， 
对 于 解码 音频 来 说 ， 这 种 解码 的 实现 没有 任何 性 能 问题 ， 但 是 对 于 解 
码 视 频 (尤其 是 高 清 视频 ) 来 说 ， 其 性 能 就 会 成 为 瓶颈 。 


10.1 ”视频 硬件 解码 右 的 使 用 


本 节 会 介绍 在 Android 平 台 和 iOS 平 台 上 硬件 解码 器 的 使 用 ， 并 基 
于 第 5 章 视 频 播放 絮 的 项 目 继 续 开 发 。 答 集成 好 硬件 解码 器 之 后 ， 读 者 
可 以 对 比 CPU 和 内 存 的 使 用 情况 ， 以 及 耗 电 量 的 情况 。 对 于 任何 H264 
的 解码 器 而 言 ， 都 要 将 SPS 和 PPS 信 息 传 递 给 解码 器 。 在 第 3 章 使 用 
FFmpeg 解 码 视频 的 时 候 ， 我 们 并 没有 显 式 设 置 SPS 和 PPS 信 息 ， 是 因 
为 在 FFmpeg 内 部 自己 做 了 设置 ， 但 是 对 于 硬件 解码 器 来 讲 ， 开 发 者 必 
须 手 动 设置 。 另 外 ， 使 用 FFmpeg 解 码 出 来 的 视频 帧 是 以 YUV 格 式 的 表 
示 形 式 存储 于 内 存 中 的 ， 但 是 对 于 硬件 解码 器 来 讲 ， 一 般 都 是 直接 解 
码 到 显存 中 ， 便 于 后 续 的 处 理 与 泻 染 。 所 以 下 面 先 来 看 如 何 从 视频 流 
中 解析 SPS 和 和 PPS 信息。 


10.1.1 初始 化 信息 准备 


请 读者 回忆 第 7 章 是 如 何 将 编码 H264 之 后 的 SPS 和 PPS 信 息 封 装 到 
视频 流 中 去 的 ， 就 是 将 SPS 和 PPS 以 一 定 的 格式 写 入 视频 流 的 编码 器 上 
下 文 的 extradata 这 个 属性 中 。 而 在 解码 中 输入 是 一 个 视频 流 ， 然 后 要 得 
到 视频 流 里 的 SPS 和 PPS 信 息 ， 这 与 编码 过 程 正好 是 一 个 逆 过 程 。 将 一 
个 视频 流 (本 地 文件 或 者 网 络 资源 ) 最 终 显 示 出 来 ， 要 经 历 协 议 解 
析 、 封 装 格 式 的 解析 、 解 码 、 音 视频 同步 、 演 染 这 一 系列 的 步骤 ， 第 5 
章 中 已 经 完成 了 一 个 视频 播放 器 ， 而 本 节 的 目的 是 将 解码 环 忆 替换 为 
硬件 解码 ， 以 提升 整个 App 的 性 能 。 


这 里 的 协议 解 林 和 封装 格式 的 解析 还 是 使 用 FFmpeg 框 以 来 完成 ， 
所 以 要 实现 硬件 解码 右 ， 束 要 和 完 写 一 个 子 类 来 继承 上 日 原来 的 
VideoDecoder 类 ， 然 后 重 写 openVideoStream 方 法 。 这 个 方法 原来 在 父 
类 的 职责 是 找 出 第 一 个 视频 流 ， 然 后 拿 出 视频 流 里 的 解码 器 上下文， 
进而 打开 软件 解码 器 。 在 重 写 了 之 后 ， 需 要 打开 的 束 是 硬件 解码 器 ， 
所 以 要 先 得 到 解码 器 上 下 文 ， 然 后 根据 解码 如 上 下 文中 的 extradata 属 性 
解析 出 SPSB 和 和 PPS 信息， 代码 如 下 : 


-(void) parseH264SequenceHeader (uint8_t* extra data, 
uint8_t** bufSPS, int* sizeSPpS 
uint8_t** bufPPS，int* sizePPS) { 
int spsSize = (extra data[6] << 8) + extra data[7]; 
*sizeSPpS = spsSize,; 
*bufSPS = &extra data[8]; 
int ppsSize = (extra data[8+spsSize+1] << 8) + extra data[8+spsSize+2]; 
*bufPPS = &extra data[8 + spsSize + 3]; 
*sizePPS = ppsSize,; 


} 


在 上 述 代 码 中 ， 传 入 参数 就 是 解码 器 上 下 文中 的 extradata 属 性 ， 这 
个 方法 会 将 解析 出 来 的 SPS 部 分 的 数据 放 入 bufSPS 中 ， 数 据 的 大 小 则 放 
入 sizeSPS 变 量 中 ;将 PPS 部 分 的 数据 放 入 bufPPS 中 ， 大 小 则 放 入 
sizePPS 变 量 中 。 具 体 实现 代码 恰好 是 7.5.2 太 将 SPS 和 PPS 封 泌 到 
extradata 属 性 中 的 一 个 逆 过 程 ， 即 取出 下 标 为 6 和 下 标 为 7 的 元 素 并 按照 
高 低位 组 合 为 SPS 的 大 小 ， 记 为 sizeSPS， 这 样 从 下 标 为 8 的 位 置 开始 长 
度 为 sizeSPS 的 内 存 区 域 表 示 的 就 是 SPS 的 信息 。SPS 结 束 之 后 的 两 个 下 
标 按照 高 低位 组 合 就 可 以 形成 PPS 的 大 小 ， 记 为 sizePPS， 而 从 这 两 个 


代表 PPS 的 size 的 下 标 开 始 向 后 数 ， 长 度 为 sizePPS 的 内 存 区 域 表 示 的 束 
征 PPS 的 信息 。 大 家 可 以 参考 第 7 章 中 的 闻 过 程 以 加 深 理解 。 


待 SPS 和 PPS 信 息 解 析出 来 之 后 ， 进 入 iOS 平 台 和 Android 平 台所 提 
供 的 硬件 解码 器 的 学 习 之 前 ， 先 来 回顾 H264 的 两 种 封装 格式 ， 一 种 是 
Annexb 的 封装 格式 ， 另 外 一 种 是 mp4 (AVCC) 的 封装 格式 。 在 第 7 章 
最 后 的 封装 步骤 中 ， 我 们 曾经 手动 将 Annexb 格 式 的 H264 码 流转 换 为 
MP4 封 装 格 式 的 码 流 ， 这 两 种 格式 的 表示 如 图 10-1 所 示 。 


AVCC | NaluLength Nalul, NaluLength Nalu2……: NaluLength NaluN 
yy 


图 10-1 


这 里 需要 注意 的 是 ，AVCC 格 式 中 ，Nalu 的 Length 需 要 四 个 字 节 的 
大 尾 端 (big endian) 顺序 ， 可 以 参考 7.5.2 节 。 在 解码 的 过 程 ， 需 知道 
解码 器 到 底 要 传 入 哪 一 种 格式 ， 并 且 还 要 了 解 我 们 从 FFmpeg 中 得 到 的 
H264 的 AVPacket 是 哪 一 种 格式 。 对 于 第 一 个 问题 ， 不 同 的 平台 是 不 一 
致 的 ，VideoToolbox 要 求 的 是 AVCC 格 式 的 输入 ， 而 MediaCodec 要 求 的 
却 是 Annexb 格 式 的 输入 。 但 是 FFmpeg 解 封装 出 来 的 AVPacket 通 常 是 
AVCC 格 式 的 ， 对 于 不 同 平台 开发 者 该 如 何 处 理 ? 下 面 我 们 分 别 进行 讲 


解 


10.1.2 ”VideoToolbox 解 码 H264 


SPS 和 PPS 里 记录 着 编码 改编 码 视频 所 用 的 profile、level、 图 像 的 
宽 和 高 、deblock 滤 波 器 等 信息 ， 而 解码 器 要 想 正 确 初始 化 且 解 码 成 
功 ， 必 须知 道 编 码 器 使 用 的 这 些 原始 信息 。 因 此 ， 下 面 分 三 部 分 来 介 
绍 硬件 解码 絮 的 使 用 ， 首 先 根据 SPS 和 PPS 信 息 来 初始 化 
VideoToolbox， 然 后 调用 硬件 解码 器 解码 出 原始 格式 的 数据 ， 最 终 销 
毁 这 个 解 公 器 。 


1.VideoToolbox 的 初始 化 


前 面 多 次 提 到 ， 要 想 使 用 iOS 平 台 提供 给 开发 者 的 多 媒体 API， 整 
必须 初始 化 FormatDescription 来 描述 编码 需 具 体 的 格式 信息 ， 这 里 也 
一 样 。 首 先 要 利用 SPS 信 息 和 PPS 信 息 构造 出 一 个 
CMVideoFormatDescriptionRef 实 例 来 搬 述 编码 妖 编 码 的 格式 信息 ， 代 
码 如 下 : 


uint8_t* bufSPS 

uint8_t* bufPPS 

int SizeSPS = 0; 

int sizePPS = 0; 

this->parseH264SequenceHeader(videoCodecCtx->extradata, 
&bufSPS，&sizeSPS，&bufPPS，&sizePPS ) ， 

Uint8_t* parameterSetPointers[2] = {bufSpPS, bufPPS}; 

size_t parameterSetSizes[2] = {sizeSPpS, sizePPS}; 

CMVideoFormatDescriptionRef formatDesc; 

OSStatus status = CMVideoFormatDescriptionCreateFromH264ParameterSets( 
kCFAllocatorDefault, 2, (const uint8_t *const*)parameterSetPointers， 
parameterSetSizes, 4, &formatDesc); 


90; 
90; 


Hl 


从 以 上 代码 中 可 以 看 到 ， 会 调用 SPS 和 PPS 的 函数 解析 出 SPS 信 息 
和 PPS 信 息 ， 然 后 根据 $9PS 信 息 和 PPS 信 息 构 造 对 应 的 数据 结构 ， 最 终 
调用 API 构 造 出 formatDesc 变 量 。 接 下 来 利用 这 个 变量 就 可 以 去 初始 化 
硬件 解码 絮 ， 代 码 如 下 : 


// 1: 解 码 完 毕 的 回调 函数 
VTDecompressionOutputCallbackRecord callBackRecord,; 
callBackRecord.decompressionOutputCcallback = 


decompressionSessionDecodeFrameCallback; 
callBackRecord,.decompressionOutputRefCon = (_ bridge void *)self; 
// 2: 解 码 输出 的 CVPijxelBuffer 的 目标 格式 


NSDictionary *destinationImageBufferAttributes = 

[NSDictionary dictionarywithObjectsAndKeys: [NSNumber numberwithBool:YES], 
(id)kCVPixelBufferOpenGLESCompatibilityKey, nil]; 

// 3: 创 建 解码 器 

OSStatus status = VTiDecompressionSessionCreate(NULL, _formatDesc, NULL, 
(__bridge CFDictionaryRef)(destinationImageBufferAttributes), 
&callBackRecord, & decompressionSession); 

if(status != noErr) { 
NSLog(@"Video Decompression Session Create: \t failed..."); 


上 述 代 码 的 第 一 部 分 是 构造 一 个 解码 器 解 码 完毕 之 后 的 回调 函 

数 ， 用 于 接受 解码 之 后 的 原始 视频 帧 。 由 于 解码 器 解码 之 后 的 视频 帧 
原始 数据 是 以 CVPixelBuffer 数 据 结 构 来 存放 的 ， 所 以 代码 的 第 二 部 分 
用 来 指定 解码 之 后 的 输出 格式 。 由 于 我 们 最 终 要 使 用 OpenGL ES 来 做 
泻 染 ， 所 以 这 里 只 设置 OpenGL ES 兼容 性 的 属性 为 YES。 当 然 也 可 以 
设置 输出 格式 ， 例 如 ， 若 解码 器 解码 到 UIImageView 上 上 显示， 就 需要 
设置 PixelFormat 为 BGRA 的 格式 ; 大 在 解码 到 UIImageView 上 显示 的 情 
况 下 ，OpenGL ES 的 兼容 性 就 必须 设置 为 NO。 代 码 的 最 后 一 部 分 就 是 
根据 前 面 的 三 个 信息 (FormatDesc、Callback、bufferAttr) 来 构造 解码 
右 ， 再 判断 status 的 状态 来 看 解码 回 是 否 创 建成 功 。 


2.VideoToolbox 解 码 过 程 


解码 过 程 需要 重 写 父 类 的 decodeVideo 方 法 ， 然 后 在 这 个 方法 中 使 
用 硬件 解码 器 来 解码 视频 帧 。VideoToolbox 需 要 开发 者 传 入 AVCC 格 式 
的 H264 视 频 帧 ， 如 果 是 一 个 裸 的 H264 文 件 ， 封 装 格式 就 是 Annexb 格 
式 的 ， 这 时 就 需要 手动 转换 为 AVCC 的 格式 ， 再 传递 给 解码 器 。 但 
是 ， 在 FFmpeg 中 经 过 解 封装 (Demux) 之 后 的 AVPacket 就 是 AVCC 的 
封装 格式 ， 因 此 不 需要 进行 转换 。 了 解 了 格式 之 后 ， 束 来 看 一 下 
VideoToolbox 接 受 的 具体 结构 体 类 型 ， 即 CMSampleBuffer、 
CMSampleBuffer 是 由 CMBlockBuffer、FormatDesc、TimeInfo 共 同 组 成 
的 ，CMBlockBuffer 中 存储 的 束 是 实际 解码 之 前 的 数据 ， 可 以 从 
AVPacket 的 data 变 量 中 得 到 。 接 下 来 构造 CMBlockBuffer 结 构 体 ， 代 码 
如 下 : 


CMBlockBufferRef blockBuffer = NULL ， 

uint8_t* data = packet.data; 

int blockLength = packet.size; 

OSStatus status = CMBlockBufferCreatewithMemoryBlock(NULL, data, 
blockLength, 
kCFAllocatorNull, NULL, 
0, 


blockLength, 
0, &blockBuffer); 
if(status != kCMBlockBufferNoErr) { 
NSLog(@"BlockBufferCreation: failed..."); 


接 下 来 继续 构造 CMSampleBuffer 结 构 体 ，FormatDesc 束 是 最 开始 
通过 SPS 信 息 和 PPS 信 息 构 造 出 来 的 结构 体 ， 而 TimeInfo 可 以 由 
AVPacket 结 构 体 中 的 PTS 和 DTS 变 换 得 到 ， 所 以 构造 结构 体 
CMSampleBuffer 的 代码 如 下 : 


int64_t presentationTimeStamp = av_rescale q(packet.pts, 
formatCctx->streams[videoStreamIndex]->time_base, AV_TIME_ BASE_ 0Q); 
int64 _t decompressionTimeStamp = av_rescale_q(packet ,dts， 
formatCctx->streams[videoStreamIndex]->time_base, AV_TIME_ BASE_Q); 
int64_t duration = packet.duration; 
if(!duration){ 
duration = 1000 / [self getVideoFPS]; 


} 
int32_t timeSpan = 1000; 
CMSampleTimingInfo timingInfo; 
timingInfo.presentationTimeStamp = CMTimeMake(presentationTimeStamp, timeSpan); 
timingInfo.decodeTimeStamp = CMTimeMake(decompressionTimeStamp, timeSpan); 
timingInfo.duration = CMTimeMake(duration, timeSpan); 
const Size_t sampleSize = blockLength; 
status = CMSampleBufferCreate(kCFAllocatorDefauilt, 
blockBuffer, true, NULL, NULL, 
formatDesc, 1, 0, &timingInfo, 1, 
&sampleSize, &sampleBuffer ); 
if(status != noErr) { 
NSLog(@" SampleBufferCreate: failed..."); 


上 述 代 码 执 行 完 毕 之 后 ， 束 顺利 地 将 AVPacket 园 换 成 了 
CMSampleBuffer 结 构 体 。 接 着 束 可 以 调用 解码 方法 了 。 对 于 解码 方 
法 ， 这 里 要 着 重 说 明 一 下 ， 解 码 方 法 并 不 会 直接 将 解码 后 的 原始 数据 
返回 给 开发 者 ， 而 是 通过 第 一 步 中 设置 的 callback 方 法 将 解码 之 后 的 数 
据 提 取出 来 ， 并 且 共 有 两 种 解码 模式 ， 一 种 是 同步 方式 ， 男 一 种 是 异 
步 方 式 。 这 两 种 模式 代表 的 意义 是 这 个 解码 API 的 调用 是否 等 竺 这 一 
帧 解码 完毕 之 后 再 返回 。 爷 来 看 如 何 调用 解码 API， 代 码 如 下 : 


VTDecodeFrameFlags flags = kVTDecodeFrame_Enab1leAsynchronousDecompression 

VTDecodeInfoFlags flagout 

status = VTDecompressionSessionDecodeFrame(_decompressionSession, 
sampleBuffer, flags, &sampleBuffer, &flagOut); 

if (status == noErr) { 
VTDecompressionSessionwWaitForAsynchronousFrames(_decompressionSession); 

} 


videoFrame.position = presentationTimeStamp / 1000000 .0 
videoFrame.duration = (float)duration / 1000.0; 
CFRelease(sampleBuffer ) ， 
if (NULL != blockBuffer) { 

CFRelease(blockBuffer ) ， 

blockBuffer = NULL 


return videoFrame; 


这 里 的 代码 比较 人 简单， 解码 方法 的 第 一 个 参数 是 解码 器 会 话 ， 第 
二 个 参数 驶 是 前 面 构造 的 sampleBuffer， 第 三 个 参数 是 解码 模式 ， 第 四 
个 参数 是 要 传递 到 回调 函数 的 变量 ， 最 后 一 个 参数 可 以 传 裤 。 唯 一 需 
要 注意 的 是 ， 这 里 使 用 的 是 异步 解码 模式 ， 但 是 在 解码 函数 结束 之 
后 ， 调 用 了 WaitForAsync 的 方法 等 待 解码 过 程 的 结束 。 当 然 ， 将 解码 
之 后 的 数据 封装 到 videoFrame 中 且 在 回调 画 数 中 进行 操作 的 ， 回 调 函 
数 的 实现 稍 后 再 展示 ， 代 码 的 最 后 会 释放 挥 blockBuffer 与 
sampleBuffer， 并 将 videoFrame 返 回 。 回 调 函 数 代 码 如 下 : 


void decompressionSessionDecodeFrameCallback(void *decompressionOutputRefCon, 
void *sourceFrameRefCon, 
OSStatus status, 
VTDecodeInfoFlags infoFlags, 
CVImageBufferRef imageBuffer, 
CMTime presentationTimeStamp, 
CMTime presentationDuration) 


If (status != noErr || !imageBuffer) { 
NSLog(@"Error decompressing frame ..."); 
return; 
} 
NSUInteger framewidth = (NSUInteger)CVPixelBufferGetwWidth(imageBuffer); 
NSUInteger frameHeight = (NSUInteger)CVPixelBufferGetHeight(imageBuffer); 
videoFrame = [[VideoFrame alloc] init]; 
videoFrame.width = framewidth; 
videoFrame.height = frameHeight; 
videoFrame.imageBuffer = (__bridge id)imageBuffer; 
} 


从 以 上 代码 可 以 看 到 ， 回 调 函 数 中 第 一 个 参数 实际 上 残 是 构造 便 

件 解码 姻 传 递 进 去 的 callback 的 上 下 文 ， 也 残 是 这 个 对 象 本 号 ; 第 二 个 

参数 则 是 调用 解码 函数 时 传递 进去 的 第 四 个 参数 ; 第 三 个 参数 status 代 

表 这 一 帧 是 否 解 码 成 功 ， 其 中 最 重要 的 参数 是 imageBuffer 与 时 间 戳 信 

人 并 返回 给 了 客 
闹 代 人 码 。 


这 样 束 完 成 了 解码 的 操作 ， 读 者 可 以 与 使 用 VideoToolbox 做 硬件 
编码 的 过 程 进行 对 比 ， 体 会 编码 和 解码 两 个 过 程 的 相同 点 和 不 同 点 。 


3.VideoToolbox 的 销毁 


最 后 的 销毁 阶段 需要 重 写 父 类 的 closeVideoStream 方 法 ， 这 里 会 销 
毁 为 硬件 解码 需 分 配 的 资源 ， 代 码 如 下 : 


if(_formatDesc) 
CFRelease(_formatDesc); 


if(_decompressionSession){ 
VTDecompressionSessionInvalidate(_decompressionSession); 
CFRelease(_decompressionSession); 


} 


至 此 ， 硬 件 解码 器 在 iOS 平 台 的 实现 就 完成 了 ， 但 是 细心 的 读者 
可 能 会 发 现 ， 人 硬件 解码 器 解码 出 来 的 数据 类 型 实际 上 是 一 个 
CVPixelBuffer， 而 这 与 之 前 软件 解码 器 解码 出 来 的 YUV420P 的 数据 是 
不 一 致 的 ， 这 就 导致 了 在 后 续 的 泻 染 阶段 肯定 也 会 出 现 不 一 致 。 的 
确 ， 在 后 续 的 VideoOutput 中 ， 要 改动 代码 以 适 配 数 据 帧 类 型 是 
CVPixelBuffer 类 型 的 泻 染 。 具 体 的 泻 染 方法 与 第 6 章 中 介绍 的 将 摄像 
头 采集 出 来 的 一 帧 CVPixelBuffer 用 OpenGL ES 演 染 到 View 上 是 一 致 
的 。 但 是 可 能 也 有 读者 会 想到 另外 一 种 设计 方案 ， 即 在 解码 结束 之 
后 ， 直 接 锁定 这 个 PixelBuffer， 根 据 视 、 高 及 对 齐 方式 将 YUV 数 据 读 
取 到 内 存 中 ， 然 后 再 封装 到 VideoFrame 中 ， 这 样 洽 染 端 就 不 用 去 做 任 
何 改动 ， 这 也 是 面 回 对 象 编程 的 优雅 实践 。 这 种 想法 十 分 有 道理 ， 其 
实 笔 者 最 开始 也 是 这 么 做 的 ， 但 是 锁定 PixelBuffer 后 ， 将 YUV 数 据 读 
取 到 内 存 中 的 效率 实在 太 低 ， 整 体 的 性 能 比 软件 解码 的 性 能 提升 不 了 
多 少 ， 所 以 最 终 还 是 去 改动 VideoOutput 中 的 一 个 模块 来 完成 整个 流 
程 ， 以 达到 最 高 性 能 的 提升 。 


10.1.3 “MediaCodec 解 码 H264 


在 Android 平 台 上 提供 给 开发 者 的 硬件 解码 絮 API 接 口 是 
MediaCodec， 调 用 人 硬件 解码 器 分 为 二 个 阶段 ， 分 别 是 初始 化 阶段 、 解 
码 阶 段 和 销毁 资源 阶段 。 初 始 化 阶段 需要 使 用 SPS、PPS 及 输出 纹理 ID 
来 配置 一 个 MediaCodec 实 例 ;， 解码 阶段 则 需要 将 FFmpeg 解 封装 出 来 的 
AVPacket 结 构 体 转换 之 后 再 给 MediaCodec 进 行 解码 ， 解 友之 后 的 数据 
由 已 经 存放 到 了 第 一 步 的 输出 纹理 ID 上 ; 当 不 再 需要 人 硬件 解码 器 的 时 
修 ， 束 销 贤 相关 的 资源 。 最 终 解 码 出 来 的 数据 帧 束 是 一 个 纹理 ID， 而 
不 再 是 YUV 的 内 存 数 据 ， 这 就 要 求 我 们 的 视频 帧 队列 不 再 是 原始 内 存 
中 的 队列 ， 而 应 该 是 一 个 可 以 存储 纹理 ID 的 显存 队列 ， 并 且 最 好 是 一 
个 循环 队列 ， 因 为 这 样 可 以 避免 纹理 ID 频 党 地 开辟 与 销毁 的 代价 ， 同 
时 VideoOutput 模 块 会 去 适 配 直接 洽 桨 一 个 纹理 ID。 


1. 纹 理 循环 队列 
人 循环 队列 可 以 直接 使 用 循环 链表 来 实现 。 首 先 ， 规 定 链表 中 存放 


的 元 素 应 该 是 什么 ， 通 常 包括 纹理 ID、 视 频 帧 的 时 间 惟 ， 以 及 视频 帧 
的 宽 和 高 等 信息 。 所 以 每 个 元 聚 结构 体 的 定义 如 下 : 


typedef struct FrameTexture { 
GLuint texId; 
float position,; 
int width,; 
int height; 
} FrameTexture; 


从 以 上 代码 可 以 看 到 ， 这 个 结构 体 很 商 单 ， 但 是 要 注意 ， 创 建 这 
个 结构 体 的 地 方 要 负责 分 配 出 一 个 纹理 ID 赋值 给 这 个 结构 体 的 texId 属 
性 ， 当 释放 这 个 结构 体 对 象 的 时 候 ， 也 要 主动 删除 掉 这 个 纹理 ID 所 占 
| 的 显存 资源 。 基 于 这 个 元 素 ， 创 建 出 循环 链表 中 的 市 点 ， 代 码 如 


typedef struct FrameTextureNode { 
FrameTexture *texture; 
struct FrameTextureNode *next,; 
FrameTextureNode( ){ 
texture = NULL; 


next = NULL; 


} FrameTextureNode,; 


定义 好 Node 之 后 ， 接 下 来 整 可 以 构造 这 个 循环 链表 了 ， 在 构造 循 
环 链表 之 前 先 明确 对 外 界 提供 的 接口 方法 。 


初始 化 方法 ， 由 于 这 个 方法 要 分 配 纹 理 对 象 ， 所 以 需要 在 一 个 
OpenGL ES 上 下 文 线程 中 进行 调用 ， 代 码 如 下 : 


void init(int width, int height, int queueSize); 


在 这 个 方法 的 实现 中 ， 初 始 化 长 度 为 langth 的 循环 链表 ， 
pushCursor 指 向 第 一 个 节点 ，pullCursor 也 指向 第 一 个 节点 ， 使 最 后 一 
个 节点 (tail) 的 Next 指 问 第 一 个 节点 (head) ， 这 样 就 构造 好 了 循环 
链表 。 当 解码 右 解 码 出 一 帧 视频 帧 后 ， 要 先 锁定 住 pushCursor 指 回 的 
元 素 ， 然 后 将 这 一 帧 视频 帧 揽 贝 到 这 个 元 素 的 纹理 ID 上 ， 最 后 解锁 
pushCursor 指 问 的 这 个 元 素 ， 并 让 pushCursor 指 亲自 己 的 下 一 个 节点 ， 
en 。 其 中 上 锁 和 解锁 的 接口 

法 如 下 : 


FrameTexture* lockPushCursorFrameTexture(); 
void unLockPushCursorFrameTexture( ); 


当 从 队列 中 取出 元 素 的 时 候 ，AVSynchronizer 组 件 会 从 队列 中 获 
取 队 头 的 一 帧 视频 帆 ， 者 返回 值 大 于 0， 则 代表 获取 到 正确 的 元 素 ; 大 
则 代表 队列 处 于 丢弃 状态 。 注 意 ， 这 里 不 是 弹出 操作 ， 代 码 如 


int front(FrameTexture **frameTexture); 


当 确定 要 使 用 这 一 帧 视频 帧 的 时 候 ， 融 要 从 队列 中 弹出 这 一 帧 视 
频 帧 ，AVSynchronizer 组 件 调 用 如 下 接口 来 完成 pullCursor 的 移动 操 
作 : 


int pop(); 


获取 队列 大 小 以 及 丢弃 队列 等 接口 的 代码 如 下 : 


int getValidSize()， 
void abort(); 


最 后 在 术 构 函数 中 所 历 所 有 的 元 素 ， 取 出 元 素 中 的 纹理 ID 并 销 
又 ， 以 及 销毁 元 素 本 号。 


了 解 了 循环 队列 中 存储 的 元 到 以 及 接口 方法 ， 在 后 续 使 用 中 就 会 
比较 清晰 。 接 下 来 我 们 讲解 MediaCodec 这 个 硬件 解码 器 的 具体 使 用 。 


2.MediaCodec 的 初始 化 


从 整个 系统 的 扩展 性 考虑 ， 下 面 编写 一 个 解码 絮 的 子 类 ， 该 子 类 
继承 自 原 VideoDecoder 类 ， 用 于 完成 硬件 解码 的 功能 ， 在 子 类 中 重 写 
父 类 的 openVideoStream 方 法 ， 用 父 类 中 的 VideoCodecContext 的 
extradata 字 段 解析 出 SPS 和 PPS 信 息 ， 并 存储 为 全 局 变量 作为 备用 。 然 
后 在 OpenGL ES 的 线程 中 创建 一 个 纹理 ID ， 将 这 个 纹理 ID、SPS、PPS 
以 及 宽 高 传递 给 Java 层 ， 由 Java 层 创建 并 配置 MediaCodec 实 例 。 由 于 
整个 播放 器 业务 逻辑 都 是 在 Native 层 开发 的 ， 所 以 这 里 比较 复杂 的 就 
在 于 将 Native 层 的 数据 对 象 传递 到 Java 层 ， 再 由 Java 层 调用 MediaCodec 
"我们 来 看 Native 层 构造 对 象 与 调用 Java 的 过 程 ， 代 
马 如 下 : 


int decodeTexId = textureFrameUploader->getDecodeTexId(); 
uint8_t* bufSPS = 0; 
uint8_t* bufPPS = 0; 
int sizeSPS = 0 
int sizePPS = 0; 
this->parseH264SequenceHeader(extra data, &bufSPS, &sizeSPps, 
&bufPPS, &sizePPS); 
jbyteArray sps = env->NewByteArray(sizeSPS); 
env->SetByteArrayRegion(sps, 0, sizeSpSs, (jbyte*) bufSPS); 
jbyteArray pps = env->NewByteArray(sizePPS); 
env->SetByteArrayRegion(pps, 0, sizePPS, (jbyte*) bufPPS ) ， 
jmethodID createVideoDecoderFunc = env->GetMethodID(jcils, 
"createVideoDecoderFromNative", "(III[B[B]Z"]; 
bool suc = (bool) env->CcallBooleanMethod(obj, createVideoDecoderFunc, 
width, height, decodeTexId, sps, pps); 
if (!suc) { 
LOGE("Create MediaCodec decoder failed, use FFMPEG decoder instead"); 
} 


~ 


env->DeleteLocalRef(Sps ) ， 
env->DeleteLocalRef (pps); 


其 中 ，textureFrameUploader 是 一 个 维护 OpenGL ES 上 下 文 线程 的 
封装 类 创建 的 实例 对 象 ， 由 这 个 对 象 来 维护 输出 纹理 ID。 要 注意 的 
是 ， 这 个 纹理 ID 的 格式 不 是 普通 的 GL_TEXTURE_2D 类 型 ， 而 是 特殊 
GL_TEXTURE_EXTERNAL_OES 类 型 ， 这 种 纹理 类 型 在 前 面 讲解 
Camera 采 集 图 像 的 时 候 已 经 介绍 过 ， 上 此 处 不 再 葡 述 。 


当然 ， 这 段 代 码 必须 放 到 一 个 JVM 线 程 中 去 执行 ， 否 则 从 Native 
层 是 不 可 以 调用 Java 层 的 代码 的 ， 有 具体 如 何 附加 (Attach) 到 一 个 JVM 
线程 中 去 ， 有 一 种 利用 的 写法 ， 代 码 如 下 : 


JNIEnV *env; 

int Status = 0; 

bool needAttach = false; 

status = g_jvm->GetEnv((void **) (&env), JNI_VERSION 1 4); 

if (status < 0) { 

if (g_jvm->AttachCurrentThread(&env, NULL) != JNI_OK) { 

LOGE("%s: AttachCcurrentThread() failed", __FUNCTION ); 
return false,; 


needAttach = true,; 


} 
// Do Something 
if (needAttach) { 
If (g_jvm->DetachCurrentThread() != JNI_OK) { 
LOGE("%s: DetachCcurrentThread() failed", __FUNCTION ); 
} 


} 


上 述 代 码 的 中 间 部 分 (注释 的 Do Something) 就 可 以 用 来 调用 
Java 的 代码 。 接 下 来 看 Java 层 如 何 构 造 与 配置 MediaCodec 实 例 的 。 它 
会 使 用 解码 格式 "video/avc" 与 宽 和 高 来 创建 一 种 媒体 格式 ， 而 且 最 重 
要 的 是 ， 将 媒体 格式 的 csd-0 和 csd-1 设 置 成 为 ps 和 pps， 然 后 将 传递 过 
来 的 纹理 ID 构造 成 为 一 个 SurfaceTexture， 并 最 终 构造 为 一 个 Surface， 
再 用 这 两 个 对 象 来 配置 这 个 MediaCodec 解 码 器 。 代 码 如 下 : 


public boolean CreateVideoDecoder(int width, int height, int texId, 
byte[] sps, byte[l] pps) { 
m_format = MediaFormat,.createVideoFormat("video/avc", width, height); 
m_format.setByteBuffer("csd-0", ByteBuffer .wrap(sps)); 
m_format.setByteBuffer("csd-1", ByteBuffer .wrap(pps)); 
try { 
m_surfaceTexture = new SurfaceTexture(texId); 
m_surfaceTexture.setOnFrameAvailableListener(this); 


m_surface = new Surface(m_ surfaceTexture); 
m_decoder = MediaCodec.createDecoderByType("video/avc"); 
m_decoder .configure(m format, m surface, null, 0); 
m_decoder.start(); 
} catch (Exception e) { 
Log.e(TAG, "" + e.getMessage()); 
release(); 
return false,; 


return true; 


从 以 上 代码 可 以 看 到 ， 如 果 配 置 过 程 中 出 现 异常 ， 则 会 调用 
release 方 法 将 所 分 配 出 的 资源 全 部 释放 掉 ， 并 返回 false， 代 表 创建 便 
件 解码 絮 失 败 ;， 如 果 成 功 ， 则 返回 true， 代 表 配 置 好 了 MediaCodec 实 
册 ° 0 接 下 来 就 是 实际 的 解码 过 程 ， 下 面 会 
进行 讨论 。 


3.MediaCodec 解 码 过 程 


实际 的 解码 过 程 就 是 如 何 将 输入 转换 为 输出 。 首 先 来 看 
MediaCodec 人 允许 如 何 输入 ， 在 6.3.2 节 讲解 过 MediaCodec 的 原理 图 ( 见 
图 6- 要 想 给 MediaCodec 输 入 ， 需 要 将 解码 屁 的 变量 inputBuffers 
取出 ， 然 后 在 每 次 将 H264 视 频 帧 给 解码 器 之 前 ， 取 出 对 应 的 
inputBuffer 的 Index， 并 将 Annexb 格 式 的 H264 数 据 放 到 这 个 buffer 中 。 
这 部 分 代码 主要 是 在 Java 层 ， 代 人 码 如 下 : 


byte[] h264Data， 
int dataSize; 
final int inputBufIndex = m_decoder.dedueueInputBuffer(TIMEOUT_USEC ) ， 
if (inputBufIndex >= 0) { 
ByteBuffer inputBuf = m_decoderIinputBuffers[inputBufIndex]; 
InputBuf ,clear()， 
InputBuf .put(h264Data，0，dataSize)， 
m_decoder .queueInputBuffer(inputBufIindex, ©0, inputSize, timeStamp, 0); 


其 中 ，h264Data 和 dataSize 这 两 个 参数 由 Native 层 信 志 弟 过 来 ， 最 终 
调用 的 queueInputBuffer 方 法 代表 将 数据 输入 给 了 解码 属 


明确 了 如 何 提供 输入 之 后 ， 还 需要 明确 输入 的 数据 是 什么 格式 
的 ， 这 里 主要 是 C++ 层 的 逻辑 ，MediaCodec 要 求 输入 的 H264 封 装 格 式 
是 Annexb 格 式 的 ， 而 FFmpeg 解 封装 出 来 的 AVPacket 结 构 体 是 AVCC 格 


式 的 ， 所 以 这 里 要 做 一 个 转换 ， 使 其 符合 MediaCodec 要 求 的 输入 格 
式 。AVCC 封 装 格式 转换 为 Annexb 封 装 格式 的 代码 如 下 : 


void MediaCodecVideoDecoder::convertPacket(AVPacket* packet) { 
uint8_t* data = 0; 
int pos = 0; 
long sum = 0; 
uint8_t header[4]; 


header[0] = 0; 
header[1] = 0; 
header[2] = 0; 
header[3] = 1; 


while (pos < packet->size) { 
data = packet->data+pos ; 
sum = data[0] << 24 + data[1] << 16 + data[2] << 8 + data[3]; 
memcpy(data, header, 4); 
pos += (int)sum; 
pos += 4; 


由 于 一 帧 视频 帧 里 可 能 有 多 个 Nalu， 所 以 这 里 有 一 个 while 循 环 ， 
把 所 有 Nalu 中 开始 的 length 换 为 StartCode， 这 样 就 将 MP4 (AVCC) 封 
装 格 式 的 H264 数 据 转 换 为 了 Annexb 封 闭 格 式 ， 除 了 这 种 手动 转换 的 方 
法 以 外 ，FFmpeg 还 提供 了 一 种 类 型 的 Filter， 即 h264_mp4toannexb 这 个 
bit stream filter， 使 用 这 个 Filter 也 可 以 达到 同样 的 效果 。 代 码 如 下 : 


// 1: 初 始 化 nh264_mp4toannexb 这 个 Filter, 注意 在 编译 FFmpeg 的 时 候 打开 这 个 开关 
AVBitStreamFilterContext* bsfc = av_bitstream filter_init("h264_mp4toannexb"); 
// 2: 转 换 格式 
AVPacket newpacket; 
av_init_packet(&newpacket); 
int ret = av_bitstream filter_filter(bsfc, videoCodecContext, NULL, 
&newpacket .data, &newpacket.size, pkt.data, pkt.size, 
pkt.flags & AV_PKT_FLAG_KEY); 
if (ret >= 0) { 
// 转换 成 功 , 可 以 取出 newpacket 中 的 data 数 据 


} 
// 3: 销 毁 这 个 Filter 
av_bitstream filter_close(bsfc); 


接 下 来 就 是 如 何 获得 解码 器 解码 出 来 的 视频 帧 。 还 记得 在 第 一 阶 
段 配 置 MediaCodec 的 时 候 ， 创 建 的 SurfaceTexture 设 置 了 一 个 
OnFrameAvailable 的 监听 器 吗 ? 即 待 解 码 絮 解码 出 一 帧 视频 帆 之 后 ， 
就 会 调用 这 个 监听 器 中 的 onFrameAvailable 方 法 ， 而 这 个 方法 中 的 处 理 
就 是 最 关键 的 地 方 。 所 以 在 解码 过 程 中 将 H264 数 据 输入 给 解码 器 (将 


inputBuffer 放 入 MediaCodec 的 输入 队列 中 ) 之 后 ， 残 要 等 待 (wait) 在 
这 里 ， 代 码 如 下 : 


m_decoder .queueInputBuffer(inputBufIindex, 0, inputSize, timeStamp, 0); 
Synchronized (m_frameSyncobject) { 
try { 
m_frameSyncobject,wait(TIMEOUT_MS ) ， 
if (!m_ frameAvailable) { 
Log.e(TAG, "Frame wait timed out!"); 
return false,; 


} catch (InterruptedException ie) { 
Log.e(TAG, "" + ie.getMessage()); 
ie.printSstackTrace(); 
return false,; 

} 

} 


当 监 昕 器 的 onFrameAvailable 芳 数 被 调用 的 时 候 ， 束 要 发 出 signal 
言 号 ， 让 解码 线程 继续 运行 ， 代 码 如 下 : 


public void onFrameAvailable(SurfaceTexture st) { 
Synchronized (m_frameSyncobject) { 
m_frameAvailable = true; 
m_frameSyncObject.notifyAll(); 
} 
} 


从 以 上 代码 中 可 以 看 到 ， 在 这 个 方法 中 会 发 出 signal 信 号 ， 让 解码 
线程 继续 运行 ， 而 在 Native 层 会 由 解码 线程 转 到 textureUploader 线 程 
(这 是 一 个 OpenGL ES 的 演 染 线程 ) 进行 调用 Java 层 的 代码 来 更 新 纹 
理 ，Java 层 更 新 纹理 代码 如 下 : 


public long updateTexImage() { 
try { 
m_surfaceTexture.updateTexImage( ); 
} catch (Exception e) { 
e.printStackTrace( ); 


return m_ timestampOfCurTexFrame; 


这 个 方法 执行 完毕 之 后 ， 人 硬件 解 码 絮 解码 成 功 的 数据 束 补 更 新 到 
textureUploader 中 维护 的 输出 纹理 ID 上 ， 至 此 就 完成 了 整个 解码 过 
程 。 解 码 过 程 葡 介绍 到 这 里 ， 由 于 涉及 Native 层 代码 和 Java 层 代码 的 交 


互 以 整个 流程 比较 复杂 ， 读 者 可 以 参考 代码 仓库 中 的 示例 代码 加 
深 理 解 。 


4.MediaCodec 的 销毁 


这 个 阶段 需要 重 写 closeVideoFrame 方 法 ， 调 用 父 类 方法 之 后 ， 再 
调用 Java 层 的 销毁 MediaCodec 的 方法 ， 这 里 展示 Java 层 的 代码 如 下 : 


if(m decoder) { 
if(m_inputBufferQueued){ 
m_decoder .flush(); 


m_decoder .stop(); 
m_decoder .release( ); 


} 


从 以 上 代码 可 以 看 到 ， 首 先 判 断 一 个 布尔 型 变量 
m_inputBufferQueued。 这 个 变量 的 意义 是 ， 当 解码 线程 将 H264 的 数据 
输送 给 了 解码 器 ， 但 是 解码 器 还 没有 解码 结束 上 时， 这 个 变量 就 被 设置 
为 true。 当 这 个 变量 被 设置 为 rue 时 ， 需 要 调用 解码 器 的 ftush 方 法 ， 剩 
下 的 就 是 调用 stop 方 法 来 停止 解码 器 ， 最 终 释放 解码 器 资源 。 


至 此 硬件 解码 絮 就 介绍 完了 ， 读 者 可 以 根据 书 中 的 介绍 找到 对 应 
0 这 样 才 可 以 更 加 熟练 地 应 用 到 目 己 的 
项 所 


10.2 ”音频 效果 需 的 集成 


本 节 会 介绍 如 何 把 第 8 章 中 的 音频 处 理 算 法 集成 到 App 中 ， 在 
Android 平 台 和 iOS 平 台中 的 实现 肯定 不 同 ， 因 为 Android 平 台 的 算法 都 
会 在 CPU 上 进行 计算 ， 而 iOS 平 台 使 用 的 是 AudioUnit 的 实现 ， 所 以 本 
节 分 为 两 部 分 来 讲解 ， 分 别 对 第 8 章 中 两 个 平台 的 音频 处 理 算法 给 出 结 
构 调 整 ， 以 适 配 我 们 的 整个 App 的 架构 。 


在 开始 设计 之 前 ， 对 于 音效 处 理 的 理解 是 很 关键 的 ， 下 面 将 第 8 和 章 
中 介绍 的 压缩 效果 右 、 均 衡 效 果 器 和 混 啊 效果 右 作 为 基础 的 混 音 效果 
郁 ， 并 将 这 三 种 效 打 亏 使 用 不 同 的 参数 组 合 起 来 ， 形 成 不 同 的 音乐 风 
格 ， 比 如 播 滚 、 流 行 、 舞 曲 等 风格 。 还 有 ， 由 于 各 个 效果 右 的 参数 众 
多 ， 最 好 以 配置 文件 的 形式 来 配置 参数 ， 这 样 束 可 以 在 不 改动 代码 的 
a 0 
0 


10.2.1 Android 音效 处 理 系 统 的 实现 


由 于 音效 处 理 是 一 个 串 行 的 数据 处 理 过 程 ， 因 此 前 一 级 节点 的 输 
出 要 作为 后 一 级 节点 的 输入 ， 并 把 每 级 节点 都 当 作 是 一 个 Filter， 让 所 
有 的 Filter 继 承 自 一 个 基 类 BaseFilter， 这 样 就 可 以 统一 接口 进行 处 理 。 
通过 上 壕 分 析 ， 不 难得 出 结论 ， 可 以 使 用 责任 链 设计 模式 完成 这 种 声 
景 的 需求 。 而 在 Filter 的 类 型 上 ， 除 了 上 述 三 种 混 音 效果 器 外 ， 应 该 还 
有 一 种 最 基础 的 音量 调节 效果 器 ， 或 者 是 音量 的 目 动 增益 控制 效果 
右 ， 总 体 结构 如 图 10-2 所 示 。 


FilterChain 
std::list<BaseFilter*>filters 


AGCAdjust | ~ Compressor ~ Equalizer ”| Reverb 


图 10-2 


随 着 产品 的 功能 迭代 ， 有 可 能 会 继续 加 入 新 的 效果 器 ， 比 如 淡出 
效果 器 ， 那 么 就 新 写 一 个 FadeOutFilter 继 承 自 BaseFilter， 然 后 重 写 生命 
周期 的 方法 来 完成 数据 处 理 ， 作 为 最 后 一 级 世 点 放 入 FilterChain 中 。 这 
个 Filter 的 构建 规则 以 及 如 何 添 加 到 FilterChain 中 ， 后 面 会 慢 慢 介绍 到 。 


然后 来 看 如 何 初 始 化 这 些 Filter， 由 于 不 同 的 Filter 需 要 不 同 的 参 
数 ， 所 以 为 了 满足 当前 Filter 的 参数 组 合 ， 可 抽象 出 一 个 AudioEffect 类 
来 将 这 些 参数 存放 起 来 ， 并 且 新 建 一 个 工厂 类 AudioEffectBuilder 来 构 
建 这 个 AudioEffect 对 象 。 从 图 10-3 中 可 以 看 到 ，AudioEffect 中 有 人 声 的 
处 理 链 (Vocalchains) 、 伴 奏 的 处 理 链 (accompanyChains) ， 以 及 后 
处 理 的 处 理 链 (mixpostChains) ， 然 后 才 是 其 他 一 些 通 用 参数 ， 比 如 
压缩 效果 器 的 参数 、 均 衡 右 的 参数 、 混 响 怖 的 参数 等 。 这 里 使 用 工厂 
类 AudioEffectBuilder 来 构建 这 个 AudioEffect 类 型 的 对 象 。 但 如 何 获得 这 
个 工厂 类 呢 ? 可 新 建 一 个 类 AudioEffectAdapter， 这 个 类 的 职责 就 是 根 
据 歼 果 硕 类 型 返回 对 应 的 工厂 类 。 目 前 只 有 一 个 AudioEffectBuilder， 
但 是 后 期 是 有 可 能 进行 扩展 的 。 


CS 
AudioEffect 


各 \ f ~ 。 
AudioEffect | AudioEffect | Wooalchains: a 1 5, 132 
Adapter Builder accompanyChains: 2,8 

mixpostChains: 10 
Other Param:comp\EQ\Reverb 
图 10-3 


随 着 产品 的 迭代 ， 后 续 也 会 增加 更 多 的 Filter， 而 这 些 Filter 的 参数 
也 是 未 知 的 。 那 么 如 何 才 能 让 代码 结构 符合 “ 开 闭 原则 ， 从 而 以 只 增 
加 文件 而 不 修改 源 代码 的 形式 来 添加 一 个 AudioEffect 呢 ? 答案 是 使 用 
抽象 工厂 的 设计 模式 来 完成 ， 即 新 增 一 个 AudioEffect 的 子 类 ， 比 如 增 
加 电 音 效果 器 : AutoTuneAudioEffect， 这 个 类 中 会 包含 很 多 新 的 参数 
变量 ， 而 这 个 类 的 实例 化 以 及 变量 的 赋值 就 由 工厂 类 来 完成 ， 即 
AutoTuneAudioEffectBuilder 来 完成 ， 这 个 类 要 继承 和 目 AudioEffectBuilder 
来 统一 回 外 界 又 露 接口 。 整 体 结构 如 图 10-4 所 示 。 
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在 各 个 Filter 之 间 传 递 的 数据 结构 ， 一 般 情 况 下 是 两 轨 声 音 的 buffer 
(包含 人 声 的 buffer 和 伴奏 的 buffer) 数据 。 但 是 ， 随 着 将 来 产品 的 迭 
代 ， 有 可 能 会 有 新 的 效果 器 加 入 ， 可 能 某 些 效果 器 在 实时 处 理 时 也 需 
要 额外 的 输入 参数 ， 或 者 有 实时 的 输出 参数 。 所 以 这 里 定义 了 两 个 数 
据 结 构 ， 如 图 10-5 所 示 。 
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AudioRequest 


short* vocalBuffer: 
short* accomBuffer: 
int size: 


long framelndex: 
map<string, void* >extra; 


AudioResponse 


map<string, void*>extra; 


Vold clear( ): 
Vold*# get (string key); 
void put (string key,void*value); 


void put/get/clear( ); 


图 10-5 


由 图 10-5 可 以 看 到 ， 这 里 把 输入 抽象 成 为 了 一 个 AudioRequest 类 ， 
其 中 包 售 了 人 声 数据 buffer、 伴 委 数 据 buffer， 以 及 这 段 buffer 的 大 小 
(size) 和 时 间 戳 \frameIndex) ， 最 重要 的 是 最 后 一 个 map 类 型 的 extra 
属性 ， 这 个 属性 束 是 负责 提供 实时 数据 处 理 的 参数 输入 。 同 样 ， 输 出 
抽象 类 AudioResponse 也 会 有 这 个 map 类 型 的 extra 属 性 ， 可 以 将 实时 处 
理 数 据 的 结 末 进 行 存 储 ， 并 返回 给 客户 端 代码 。 了 明确 了 Filter 之 间 传 递 
的 数据 结构 ， 下 面 来 看 BaseFilter 的 具体 代码 ; 


class AudioEffectFilter { 

public: 
virtual int init(AudioEffect* audioEffect) = 0; 
virtual void doFilter(AudioRequest* request, AudioResponse* response) = 0; 
virtual void destroy(AudioResponse* response) = 0; 


}; 


随 痢 产品 的 磊 代 ， 奉 要 增加 一 个 电 首 效果 右 ， 在 满足 “ 开 闭 原 
则 ”的 条 件 下 ， 要 考虑 如 何在 只 新 增 儿 个 类 而 不 修改 原 有 代码 的 情况 下 
完成 场景 的 需求 。 这 里 要 分 两 部 分 来 实现 ， 第 一 部 分 是 将 新 增 的 Filter 
的 枚 举 类 型 值 放 入 配置 文件 中 ， 后 续 再 根据 枚 举 类 型 值 来 构造 出 
AudioEffect 中 的 元 素 vocalChain; 第 二 部 分 是 使 用 工厂 类 
AudioEffectFilterFacoty 来 根据 效果 器 的 枚 举 类 型 构造 出 对 应 的 效果 器 ， 
整体 结构 如 图 10-6 所 示 。 
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接 下 来 封装 一 个 总 体 的 控制 类 AudioEffectProcessor， 将 整个 系统 
联 起 来 ， 代 码 如 下 : 


class AudioEffectProcessor { 
protected: 
AudioRequest* request,; 
AudioResponse* response,; 
AudioEffect* audioEffect,; 
public: 
virtual void init(AudioEffect* audioEffect); 
virtual AudioResponse* process(short *vocalBuffer, short *accompanyBuffer, 
int audioBufferSize, long frameIndex) = 0; 
virtual void setAudioEffect(AudioEffect* audioEffect) = 0; 
virtual void resetFilterChains() = 0; 
virtual void destroy!(); 


}; 


最 重要 的 process 方 法 的 处 理 结构 如 图 10-7 所 示 。 其 中 ， 
vocalEffectFilterChain 是 负责 处 理 人 声 这 一 轨 音 频 的 ， 
accompanyEffectFilterChain 是 负责 处 理 伴奏 这 一 轨 音 频 的 ， 当 这 两 轨 音 
的 后 ， 再 利用 MixEffectFilter 将 这 两 轨 声 音 Mix 为 一 轨 声 音 ， 

终 使 MixPostEffectFilterChain 给 这 一 轨 声 音 做 最 后 处 理 (比如 淡出 
效果 器 ° 


vocalEffectFilterChain 门 
| | 
accompanyEffectFilterChain 六 
图 10-7 


至 此 ， 这 一 套 Android 上 的 音频 处 理 系统 就 搭建 完毕 。 这 套 音 频 处 
系统 的 设计 分 体现 了 面向 接口 编程 与 尽量 遵循 了 “ 开 闭 原则 ”。 后 
续 章 节 中 ， 我 们 会 将 这 套 系统 集成 到 我 们 的 整个 App 中 ， 0 
者 一 定 要 理解 这 一 父系 统 的 设计 ， 可 以 到 代码 仓库 中 将 对 应 源码 进 
分 析 ， 便 于 深入 理解 。 


"| MixEffectFilter | 一 ~ MixPostEffectFilterChain 


10.2.2 _ iOS 音 效 处 理 系统 的 实现 


在 iOS 平 台 ， 我 们 基于 AUGraph 这 个 框架 来 实现 音效 处 理 系统 。 从 
名 字 就 可 以 看 出 ， 这 个 框架 是 一 个 图 状 结构 ， 而 基于 AUGraph 将 各 个 
AudioUnit 串 联 起 来 组 成 整个 处 理 的 图 状 结构 是 非常 简单 的 。 第 8 章 也 已 
经 介绍 了 单独 的 压缩 效果 器 、 均 衡器 以 及 混 响 效果 器 。 从 更 高 层次 来 
看 ，Imput 是 用 麦克 风 来 收集 人 声 的 ， 或 者 通过 解码 天 来 解码 伴 和 过 的 ， 
对 应 的 AudioUnit 束 是 RemoteIO 和 AudioFilePlayer; 而 Output 是 Speaker 
播放 Mix 之 后 的 人 声 和 伴 妆 ， 或 者 将 人 声 和 伴奏 的 声音 编码 到 本 地 人 厂 一 
上 上 ， 对 应 的 AudioUnit 就 是 RemoteIlO 和 Generic Output; 至 于 Processor， 
对 应 的 束 是 压缩 效果 如 、 均 衡 妖 以 及 温 啊 器 对 于 人 声 的 处 理 以 及 将 人 
声 和 伴奏 的 Mix 操 作 。 所 以 整体 以 构图 如 图 10-8 所 示 。 

本 本 - 
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在 图 10-8 中 ， 除 了 RemoteIO 同 时 作为 Input 和 Output， 以 及 
AudioFilePlayer 作 为 Input 之 外 ， 其 他 所 有 市 点 共同 组 成 音频 的 Processor 
部 分 ， 而 其 中 压缩 器 、 均 衡器 和 混 响 器 这 三 个 效果 器 的 参数 有 很 多 ， 
不 同 的 音乐 风格 ( 摇 深 、 流 行 、 舞 曲 等 ， 对 应 的 这 三 个 效果 器 中 的 参 
数 是 不 同 的 。 我 们 把 这 些 参数 放置 到 一 个 plist 类 型 的 配置 文件 中 ， 会 让 
代码 有 更 强 的 可 读 性 ， 并 且 有 利于 将 来 的 扩展 。 


对 于 伴奏 的 解码 角色 AudioFilePlayerUnit， 前 面 已 经 介绍 过 ，iOS 
将 这 个 AudioPlayerUnit 提 供给 开发 者 用 来 解码 伴奏 ， 并 且 可 以 直接 添加 
到 AUGraph 中 。 对 于 图 10-8 中 的 整个 处 理 结构 ， 驱 动 方 是 Output， 即 
RemoteIO Unit， 这 在 采制 阶段 或 者 在 播放 阶段 都 是 可 以 的 。 但 是 ， 当 
处 于 离线 泻 染 场 景 时 ，Output 就 不 再 是 RemoteIlO 了， 因此 必须 找 一 个 


indinO 


图 10-8 


可 以 用 来 张 动 整个 Graph 的 和 点 ， 而 这 个 和 点 束 是 GenericOutput 类 型 的 
AudioUnit。 这 个 GenericOutput 的 类 型 是 kAudioUnitType_Output， 子 类 
型 是 kKAudioUnitSubType_GenericOutput， 符 给 它 设置 好 属性 后 ， 将 它 连 
接 到 最 终 的 一 个 广 点 上 ， 然 后 启动 一 个 while 循 环 并 一 直 洽 染 这 个 
AudioUnit 的 数据 ， 这 样 就 可 以 将 整个 数据 流转 起 来 ， 最 终 获 得 首 频 数 
据 之 后 并 保存 到 文件 中 。 


如 果 需 要 自己 写 一 些 算法 来 处 理 音频 数据 ， 应 该 如 何 把 数据 集成 
到 这 个 AUGraph 中 去 呢 ? 答案 是 给 对 应 的 AudioUnit 设 置 InputCallback 
的 方式 。 在 设置 的 这 个 回调 函数 中 ， 首 先 会 调用 前 一 级 节点 泻 染 数据 
的 方法 ， 得 到 了 AudioBufferList 类 型 的 ioData 就 可 以 进行 CPU 上 的 运 
算 ; 最 后 将 运算 完毕 的 数据 再 放 回 到 ioData 变 量 中 ， 就 可 以 继续 执行 后 
续 的 效果 侨 ， 从 而 满足 这 种 场景 的 需求 。 


如 果 要 将 录制 的 人 声 在 任何 效果 器 起 作用 之 前 保存 下 来 ， 就 要 给 
Compressor 这 个 节点 增加 一 个 InputCallback， 再 在 回调 函数 中 调用 
RemoteIO 这 个 AudioUnit 产 后 数据 ， 得 到 AudioBufferList 类 型 ioData;， 然 
后 利用 ExtAudioFile 写 到 本 地 人 磁盘 文件 中 。 保 存 下 来 的 文件 称 为 干 声 文 
件 。ExtAudioFile 这 个 API 的 使 用 在 前 面 已 经 介绍 过 ， 不 再 警 述 。 


如 果菜 些 CPU 算 法 的 效果 句 要 求 SInt16 的 输入 ， 束 需要 在 这 个 
AUGraph 的 处 理 结构 适当 的 和 点 上 插入 AudioConvertUnit， 以 便 将 当前 
格式 (如 Float32) 的 数据 转换 为 Sint16 格 式 的 数据 ， 待 这 些 算法 的 效果 
器 执行 完毕 之 后 ， 再 给 AudioConvertUnit 以 将 SInt16 格 式 的 数据 转换 为 
人 并 发 送 给 后 面 的 效果 器 Node， 以 完成 后 续 的 数据 处 理 操 


总 体 来 说 ， 在 iOS 平 台 使 用 AUGraph 完 成 音频 处 理 是 比较 简单 的 ， 
后 面 会 将 这 个 系统 集成 到 视频 孙 制 的 项 目 中 ， 读 者 可 以 到 代码 仓库 中 
查看 源码 ， 便 于 深刻 理解 。 


10.3 ”一 父 路 平台 的 视频 效 末 璐 的 设计 与 实现 


有 的 读者 可 能 感觉 路 平台 的 视频 效 末 融 一 定 生 用 C 语 言 或 者 C++ 语 
诗 来 编写 并 运行 在 CPU 上 面 的 ， 其 实 不 然 ， 由 于 本 书 的 目标 是 移动 平 
台 ， 所 以 对 性 能 的 要 求 是 极 高 的 。 鉴 于 之 前 的 基础 ， 不 难得 出 结论 ， 
这 套 跨 平台 的 效果 器 是 基于 OpenGL ES 来 实现 的 。 下 面 让 我 们 从 分 析 
应 用 场景 入 手 ， 一 块 来 设计 和 实现 这 均 跨 平台 的 视频 效 采 船 库 。 


先 思 考 视 频 效 采 融 库 会 在 哪些 场景 下 使 用 ， 比 如 有 可 能 会 在 用 户 
孙 制 视频 界面 的 预览 中 使 用 ， 因 为 用 户 在 预览 的 时 候 可 能 需要 美 颜 效 
条 ; 也 有 可 能 在 后 处 理 阶 段 会 使 用 ， 因 为 用 户 可 能 会 给 视频 加 上 一 些 
动 图 或 者 主题 。 下 面 介绍 这 两 种 典型 的 场景 。 


对 于 预览 界面 ， 可 以 回想 第 6 章 的 摄像 头 预览 项 目 。 无 论 是 iOS 平 
台 还 是 Android 平 台 的 摄像 头 预览 ， 都 是 基于 OpenGL ES 泻 染 环境 浑 染 
摄像 头 采集 出 来 的 图 像 ， 而 在 OpenGL ES 中 传递 的 视频 帧 对 象 就 是 一 
个 纹理 ID， 所 以 可 以 设计 视频 效果 器 库 的 处 理 视频 帧 接口 如 下 : 


void process(int inputTexID, float position, int outputTexID ) ， 


其 中 ， 参 数 inputTexID 代 表 原 始 的 视频 帧 ;参数 position 代 表 这 一 帧 
视频 帆 的 时 间 鹤 ， 参 数 outputTexID 代 表 经 过 视频 效果 妖 处 理 完 毕 的 输 
出 纹理 ID。 其 实 一 个 接口 就 可 以 满足 预览 场景 下 的 视频 滤 匀 的 处 理 。 
接 下 来 请 读者 思考 这 个 接口 能 否 满足 后 处 理 场景 下 的 需求 ? 答案 是 肯 
定 的 ， 因 为 后 处 理 场 景 下 的 泻 染 环 境 也 是 基于 OpenGL ES 来 构建 的 ， 

而 在 中 间 传 递 的 也 是 纹理 ID， 所 以 这 个 接口 也 可 以 无 颖 地 接 入 后 处 理 

场景 中 去 。 读 者 可 以 参考 第 7 章 中 的 图 7-2， 从 更 高 层次 来 理解 ， 无 论 无 

摄像 头 还 是 解码 妖 都 属于 Input， 而 无 论 是 View 还 是 编码 器 都 属于 

We 中 间 要 加 入 的 视频 效果 器 库 则 属于 Processor， 上 整体 架构 如 
10-9 所 不 。 
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图 10-9 的 分 析 如 下 : 从 Camera 采 集 一 帧 视频 帧 ， 经 过 Processor 处 
理 ， 到 View 显 示 束 是 预 贞 过程， 再 到 Encoder 编 码 就 是 孙 制 视频 的 保存 
过 程 ， 从 Decoder 解 码 一 帧 视频 帧 ， 经 过 Processor 处 理 ， 到 View 显 示 职 
是 视频 编辑 界面 ， 再 到 Encoder 编 码 就 是 后 处 理 的 保存 过 程 ， 所 以 这 个 
架构 可 以 满足 整个 视频 孙 制 和 后 处 理 的 所 有 场景 。 


既然 视频 效果 器 库 的 处 理 接口 已 经 确定 好 ， 如 何 与 客户 端 代码 对 

接 就 是 当前 要 解决 的 问题 。 要 在 OpenGL ES 中 将 一 个 纹理 对 象 处 理 之 
后 绘制 到 另外 一 个 纹理 对 象 上 ， 肯 定 需 要 帧 缓存 对 象 ， 即 FBO“。 对 于 
FBO 的 用 法 ， 官 方 文档 上 有 一 句 话 是 这 样 说 的 :频繁 绑 定 FBO 与 解 绑 
定 FBO 的 效率 远 不 如 使 用 同一 个 FBO 在 不 同 的 纹理 ID 上 进行 切换 

(Attach) 。” 所 以 视频 效果 器 库 需 要 和 客户 端 代码 制定 以 下 协议 : 客 
户 端 代码 需要 在 初始 化 特效 处 理 器 的 时 候 同 时 生成 FBO 与 输出 纹理 
ID 。 注 意 这 个 初始 化 过 程 必须 在 OpenGL ES 的 线程 中 ， 代 码 如 下 : 


VideoEffectProcessor *procesSor ; 

processor = new VideoEffectProcessor()， 

processor->init(width, height); 

glGenFramebuffers(1, &mFBO); 

glGenTextures(1, &outputTexId); 

glBindTexture(GL_TEXTURE_ 2D, outputTexId); 

glTexParameteri(GL_TEXTURE_2D, GL_TEXTURE_MIN_FILTER, GL_LINEAR); 

glTexParameteri(GL_TEXTURE_2D, GL_TEXTURE_MAG_FILTER, GL_LINEAR); 

glTexParameteri(GL_TEXTURE_2D, GL_TEXTURE_ WRAP_S, GL_CLAMP_TO_EDGE); 

glTexParameteri(GL_TEXTURE_2D, GL_TEXTURE_ WRAP_T, GL_CLAMP_TO_EDGE); 

glTexImage2D(GL_TEXTURE_2D, 0, GL_RGBA, width, height, 0, GL_RGBA, 
GL_UNSIGNED_BYTE, 0); 

glBindTexture(GL_TEXTURE_2D, 0); 


然后 在 调用 特效 处 理 器 的 处 理 方法 之 前 绑 定 FBO， 之 后 解 绑 定 
FBO， 代 码 如 下 : 


glBindFramebuffer(GL_FRAMEBUFFER, mFBO); 
processor->process(inputTexId, position, outputTexId); 
glBindFramebuffer(GL_FRAMEBUFFER, 0); 


当 用 户 切换 视频 特效 的 时 候 ， 调 用 特效 处 理 器 的 切换 特效 的 广 
法 ， 比 如 从 美 颜 特效 切换 到 自然 特效 ， 代 码 如 下 : 


processor->removeAllFilters(); 
int filterId = processor->addFilter(sequenceIn, sequenceOut, filterName); 
processor->setFilterPparamValue(filterId, filterkey, filterVvalue); 


如 上 有 述 代 码 所 示 ， 移 移 除 掉 所 有 的 Filter。 然 后 使 用 flterName 增 加 
一 个 Filter， 并 使 用 参数 sequenceIn 代 表 这 个 Filter 的 开始 作用 时 间 ， 使 用 
参数 sequenceOut 代 表 这 个 Filter 的 结束 作用 时 间 。 其 次 根据 上 一 步 得 到 
的 filterID 给 这 个 Filter 设 置 对 应 的 参数 ， 这 样 承 达到 了 切换 效果 怖 的 目 
的 ， 当 然 这 种 切换 是 把 最 细 粒 度 的 接口 都 公布 给 客户 端 代 码 。 事 实 
上 ， 也 可 以 封装 一 些 接口 ， 使 其 功能 更 加 单一 ， 从 而 更 方便 调用 客户 
端 ， 具 体 可 以 参照 代码 仓库 中 的 示例 代码 。 最 后 是 销 虹 FBO、 特 效 处 
i 。 注意 这 上 段 代 码 也 必须 在 OpenGL ES 的 线程 中 执行 ， 
但 如 下 : 


if (mFBO) { 
glBindFramebuffer(GL_FRAMEBUFFER, 0); 
glDeleteFramebuffers(1, & mFBO); 


} 

if(processor) { 
processor->dealloc(); 
delete processor; 
processor = NULL; 


} 
glDeleteTextures(1, &outputTexId); 


将 客户 站 代码 的 协议 摘 述 清 区 之 后 ， 搂 下 来 看 看 如 何 设计 效果 郁 
的 内 部 实现 。 


这 里 要 实现 的 这 个 框架 包含 9.4 节 的 所 有 效 灯 占 ， 并 且 能 根据 产品 
版 本 的 欠 代 不 断 引进 新 的 效果 器 。 此 外 ， 用 户 看 到 的 滤 镜 效果 有 可 能 


包含 多 个 效果 器 ， 它 以 一 个 效果 器 链 的 形式 来 完成 一 个 泪 镜 效果 ， 比 
如 美 颜 滤 噶 ， 首 移 妥 果皮 效 采 器 ， 然 后 要 增加 对 比 度 的 将 采 器 ， 接 看 
yg 后 可 能 还 要 一 个 色调 曲线 调整 出 清凉 、 复 古 等 效果 ， 如 图 
10-10 所 示 。 


广 


「 「 Nf 1] 色调 出线 
美 颜 滤 镜 麻 皮 效果 器 | | 对比度 效果 器 | | 提 亮 效 果 器 本 
效果 人 兢 
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图 10-10 


所 以 这 里 的 设计 要 符合 这 种 基本 需求 ， 首 先 为 效果 器 建立 一 个 
Model 类 来 存储 效果 妖 的 参数 以 及 作用 时 间 。 在 效果 器 里 ， 与 泻 染 
(OpenGL ES 的 绘制 ) 无 关 的 业务 逻辑 计算 都 放 在 这 个 类 里 来 完成 ， 
定义 ModelFitler 的 基 类 ， 代 码 如 下 : 


class ModelrFilter { 
public: 
ModelFilter(); 
ModelFilter(int index, int64 _t sequenceIn, int64 _t sequenceOut, 
char* filterName); 
virtual ~ModelFilter(); 
virtual bool init(); 
virtual void onRenderPre(float pos); 
virtual bool isAvailable(float pos); 
void setFilterParamValue(char * paramName, ParamVal value); 
bool getFilterPparamValue(string paramName, ParamVal & value); 
int getId() { 
return id; 
}; 
private: 
int id; 
int64_t SeduenceIn 
int64_t sequenceOut,; 
map<string, ParamVal> mMapParamValue; 


上 述 代 码 中 ， 定 义 ModelFitler 的 基 类 将 通用 的 属性 和 方法 都 封装 起 
来 ， 并 向 外 暴露 出 几 个 接口 : init 方 法 是 留 给 子 类 去 做 一 些 资 源 初 始 化 
的 ， 比 如 视频 主题 效果 器 以 及 贴纸 效果 器 的 解码 器 初始 化 等 行为 ; 
onRenderPre 方 法 是 为 了 某 些 效果 器 lB 在 泻 染 本 帧 之 前 根据 时 间 稚 计算 
当前 效果 器 的 进度 ， 比 如 渐变 模糊 效果 器 ; isAvailable 方 法 则 用 于 判定 
当前 效果 器 是 否 在 作用 区 间 内 ， 实现 方法 主要 就 是 判定 当前 帧 的 时 间 


难 和 sequenceIn 及 sequenceOut 的 天 系 ; getId 方 法 束 是 获得 当前 效果 右 的 
唯一 标识 。 另 外 ， 还 有 一 个 比较 重要 的 参数 设置 方法 和 获取 参数 的 方 
法 ， 这 里 定义 了 一 个 结构 体 ParamVal， 包 含 了 所 有 的 基础 数据 类 型 和 
一 个 Type 类 型 来 记录 当前 属性 是 什么 数据 类 型 ， 最 终 会 将 这 个 ParamVal 
作为 一 个 Key 的 Value 存储 到 map 类 型 的 属性 中 ， 以 便 后 续 访 问 ， 结 构 体 
ParamVal 的 展示 如 下 : 


struct ParamVal { 
union { 
void *arbData; 
int intVal; 
double flLtVal， 
bool boolVal 
Color colorVal; 
Position2D pos2dVal; 
Position3D pos3dVal; 
} u; 
string StrVal， 
EffectParamType type; 
}; 


这 样 束 可 以 表示 所 有 的 属性 了 ， 而 在 子 类 中 可 以 直接 取出 对 应 的 
参数 进行 计算 。 然 后 再 建立 一 个 类 TimeLine 把 当前 滤 镜 效果 所 用 到 的 
效果 万 列表 包 侣 进来 ， 代 码 如 下 : 


class ModelTimeLine { 
public: 
ModelTimeLine( ); 
virtual ~ModelTimeLine( ); 
void clear(); 
int addFilter(int64 t sequenceIn, int64 t sequenceOut, char* filterName); 
void deleteFilter(int sub); 
bool invokeFilterOonInit(int filterId); 
void setFilterPparamValue(int filterId, char * paramName, ParamVal value); 
list<ModelFilter*> getAllFilters(); 
private: 
list<ModelFilter *> filters,; 
int filterCount,; 


} 


如 上 述 代 码 所 示 ， 当 调用 addFilter 方 法 加 入 一 个 Eilter 的 时 候 ， 首 先 
会 根据 filterName 找 到 对 应 的 Filter， 再 将 其 实例 化 并 加 入 filters 这 个 列表 
中 ， 同 时 将 filterCount 加 1， 作 为 这 个 filter 的 ID 并 返回 ， 然后 客户 端砚 
可 以 根据 这 个 filterId 调 用 setFilterParamValue 方 法 给 filter 设 置 参数 ;最 后 
根据 这 个 filterId 调 用 invokeFilterOnInit 方 法 ， 进 而 调用 filter 的 初始 化 方 
法 。 下 面 创建 所 有 效果 器 真正 处 理 图 像 效果 的 Effect 类 ， 先 定义 一 个 


BaseVideoEffect 的 基 类 ， 然 后 让 所 有 的 效果 器 都 继承 目 这 个 类 ， 并 重 写 
生命 周期 方法 完成 子 类 目 己 的 行为 。 


下 面 分 析 基 类 BaseVideoEffect， 既 然 是 执行 OpenGL ES 的 演 染 操作 
的 封装 ， 那 么 必须 要 加 载 Shader 以 及 Program 的 工具 方法 ， 同 时 也 要 把 
VertexShader 和 FragmentShader 的 内 容 ， 以 及 构造 出 来 的 顶点 坐标 和 
GLProgram 作 为 成 员 变 量 封 逆 起 来 ， 代 码 如 下 : 


protected: 
char* mVertexShader,; 
char* mFragmentShader; 
bool mIsInitialized; 
GLuint mGLProgId; 
GLuint mGLVertexCoords; 
GLuint mGLTextureCoords; 
GLint mGLUniformTexture; 
A 工具 方法 此 
void checkGlError(const char* op) 
GLuint loadProgram(char* pVertexSource, char* pFragmentSource); 
GLuint loadShader(GLenum shaderType, const char* pSource); 


接 下 来 是 最 重要 的 生命 周期 方法 ， 由 于 子 类 有 可 能 要 在 初始 化 阶 
段 初始 化 自己 的 Shader， 找 出 Shader 中 的 独 有 变量 ， 并 分 配 上 自己 用 到 的 
中 间 纹 理 对 象 等 ， 所 以 需要 重 写 init 方 法 ;在 深 染 阶段 ， 子 类 有 可 能 
自己 渲染 操作 ， 比 如 要 传递 Uniform 变 量 给 FragmentShader， 所 以 要 重 
写 renderEffect 方 法 ;在 销毁 阶段 ， 子 类 有 可 能 要 释放 目 己 分 配 的 一 些 
纹理 对 象 等 资源 ， 所 以 要 重 写 destroy 方 法 ， 有 具体 代码 如 下 : 


class BaseVideoEffect { 
public: 
BaseVideoEffect(); 
virtual ~BaseVideoEffect(); 
virtual bool init(); 
virtual void renderEffect(int inputTexId, float pos, int outputTexId, 
EffectCallback * filterCallback); 
virtual void destroy(); 


每 个 子 类 会 完成 相应 的 效果 演 染 ， 比 如 磨 皮 效果 右 、 提 亮 效果 
器 、 视 频 主题 效果 器 等 。 我 们 来 看 真正 泻 染 视频 时 是 如 何 遍历 所 有 的 
从 而 完成 最 终 效 果 泻 染 工 作 。 首 先 来 看 方法 签 
| > 克 口 0 


void VideoEffectProcessor::process(GLuint sourceTexId, float position, 
GLuint outputTexId ) ， 


接 看 根据 当前 帧 的 时 间 戳 ， 过 减 所 有 可 能 发 生 作用 的 效 采 凑 数 
量 ， 代 码 如 下 : 


list<ModelFilter *> filters = timeLine->getAllFilters(0); 
list<ModelFilter *>::iterator itor = filters.begin(); 
int filterCount = 0; 
for (; itor != filters.end(); itor++) { 

ModelFilter* filter = *itor,; 

if (filter->isAvailable(position)) 

filterCount++; 
} 


} 


然后 判断 铬 和 锯 terCount 是 0， 则 代表 当前 时 间 操 没有 效果 屁 起 作 
用 ， 因 此 可 直接 调用 一 个 直通 的 效 采 器 将 inputTexId 泻 染 到 outputTexId 
上 ， 代 码 如 下 : 


if(filterCount == 0){ 
directPpassEffect->renderEffect(sourceTexId, outputTexId, NULL); 


如 采 filterCount 不 为 0， 则 要 依次 执行 所 有 的 效果 器 ， 并 要 为 每 个 
效果 器 建立 输出 纹理 ID， 以 及 将 前 一 级 效果 器 的 输出 纹理 ID 作为 当前 
效果 亏 的 输入 纹理 ID， 将 当前 效果 融 的 输出 纹理 ID 作为 后 一 级 效果 郁 
的 输入 纹理 ID， 代 码 如 下 : 


list<ModelFilter *>::iterator itor = filters.begin(); 
int sub = 0; 
GLuint previousTexId = sourceTexId; 
GPUTexture* previousTexture = NULL; 
for (; itor != filters.end(); itor++) { 
ModelFilter* filter = *itor; 
if (filter->isAvailable(position)) { 
BaseVideoEffect* effect = effectCache-> 
getVideoEffectFromCache(string((*itor)->name)); 
if (effect) { 
filter->onRenderPre(position); 
GLuint currentTexId = outputTexId,; 
GPUTexture* texture = NULL， 
if(sub < (filterCount - 1)){ 
texture = GPUTextureCache: :GetInstance( )-> 
fetchTexture(width, height); 
texture->lock(); 
currentTexId = texture->getTexId(); 


effect->renderEffect(previousTexId, position, currentTexId, 
filter->getFilterCcallback()); 

previousTexId = currentTexId; 

if(NULL != previousTexture)t{ 
previousTexture->unLock(); 


previousTexture = texture; 
} else { 
LOGE("getVideoEffectFromCache failed"); 


sub++; 
} 
} 


细心 的 读者 从 这 段 代码 里 可 以 看 到 有 两 个 退 求 效率 的 缓存 ， 其 中 
一 个 是 前 面 已 介绍 过 的 纹理 绥 存 ， 可 根据 宽 高 到 纹理 缓存 中 取出 对 应 
的 纹理 对 象 ， 这 大 大 降低 了 频繁 开辟 纹理 与 释放 纹理 的 开销 ， 男 外 一 
个 就 是 effect 的 缓存 ， 这 个 绥 存 存在 的 意义 是 降低 频繁 创建 和 销 蝶 
OpenGL 的 Program 的 开销 。 虽 然 这 两 个 优化 看 起 来 不 太 起 眼 ， 但 是 这 
i 。 一 个 App 运 行 流畅 与 否 ， 与 这 些 细 廊 的 优化 
县 县 相关 。 


至 此 ， 视 频 效果 器 库 束 搭建 好 了 。 读 者 可 以 去 查看 代码 仓库 中 的 
源码 ， 后 续 章 市 会 把 这 个 效果 看 库 集成 到 系统 中 。 


10.4 ”将 特效 处 理 库 集成 到 视频 永 制 项 目 中 


经 过 表面 的 学 习 ， 相 信 六 部 分 读者 已 经 党 握 了 各 目 乎 台 的 音频 效 
林 器 系统 和 视频 效 采 器 系统 ， 接 下 来 要 将 这 两 个 系统 集成 到 我 们 的 
App 中 。 一 个 孙 制 视频 的 项 目 其 核心 流程 有 如 下 三 个 阶段 。 


第 一 阶段 是 录制 视频 。 用 户 可 以 预 宽 到 摄像 关中 的 实时 图 像 ， 麦 
克 风 可 以 采集 到 外 界 声 音 ， 并 有 可 能 播放 背景 音乐 或 者 伴奏 (对 于 唱 
歌 的 App) ， 这 个 阶段 最 后 会 生成 一 个 视频 文件 。 


第 二 阶段 是 编辑 阶段 。 用 户 可 以 看 到 上 一 阶段 录制 的 视频 ， 并 且 
可 以 给 视频 增加 一 些 特效 ， 包 括 音频 特效 与 视频 特效 ， 最 终 在 调节 成 
一 个 满意 的 效果 之 后 ， 点 击 “ 保 存 "按钮 进入 第 三 阶段 。 


第 三 阶段 是 离线 保存 阶段 。 目 动 按照 用 户 选 择 的 特效 以 第 一 阶段 
原始 视频 作为 输入 ， 进 行 处 理 并 你 存 到 最 终 文件 中 。 


以 上 三 个 阶段 惑 是 整个 视频 录制 项 目的 核心 流程 ， 在 第 二 阶段 与 
第 三 阶段 中 的 视频 解码 部 分 可 以 使 用 10.1 节 讲解 的 硬件 解码 器 来 提升 
性 能 ， 每 个 阶段 都 会 用 到 10.2 节 和 10.3 节 的 效果 器 。 所 以 接 下 来 介绍 如 
何 将 首 频 与 视频 效果 右 库 集成 到 每 一 个 阶段 。 


10.4.1 _ Android 平台 特效 集成 


本 将 介绍 在 Android 平 台 上 如 何 集成 音频 与 视频 特效 ， 由 于 我 们 
的 实现 都 是 在 Native 层 ， 并 且 这 两 个 特效 库 也 都 是 使 用 C 或 考 C++ 语 言 
开发 的 ， 所 以 集成 工作 也 主要 发 生 在 Native 层 。 


1. 集 成 首 频 特效 处 理 库 


下 面 集成 音频 特效 处 理 库 。10.2 贡 已 经 详细 介绍 过 音频 特效 库 的 设 
计 ， 其 中 核心 类 就 是 AudioEffectProcessor。 在 第 7 章 的 视频 录制 项 目 
中 ， 对 于 音频 模块 编码 器 线程 ， 在 将 人 声 PCM 队 列 中 的 声音 数据 与 伴 
委 PCM 队 列 中 的 伴 委 数据 进行 Mix 之 后 ， 束 会 进行 编码 。 如 果 读 者 对 这 
两 点 都 有 印象 ， 就 可 以 继续 下 面 的 工作 ;如果 觉得 有 点 模糊 ， 请 查看 
7.3.2 广 和 10.2 广 相关 的 内 容 。 


大 家 还 记得 7.3.2 世 中 编码 右 适 配 回 类 中 的 getAudioPacket 方 法 吗 ? 
这 个 方法 会 调用 一 个 processAudio 方 法 。 现 在 建立 一 个 子 类 
AudioProcessEncoderAdapter 来 重 写 这 个 方法 ， 从 而 完成 扩展 的 作用 。 
在 重 写 的 processAudio 方 法 中 ， 就 可 以 调用 AudioEffectProcessor 的 
process 方 法 。 子 类 还 需要 重 写 父 类 的 init 方 法 ， 实 现 伴奏 队列 与 音频 效 
采 囊 的 初始 化 ， 初 始 化 方法 代码 如 下 : 


void AudioProcessEncoderAdapter: :init(LivePacketPool* pcmPpacketPool, int 
audioSampleRate, int audioChannels, int audioBitRate, 
const char* audio codec name, AudioEffect *audioEffect) { 
this->accompanyPacketPool] = LiveCommonPacketPool: :GetInstance( ); 
AudioEffectProcessor*audioEffectProcessor = AudioEffectProcessorFactory:: 
GetInstance()->buildAudioEffectProcessor(); 
audioEffectProcessor->init(pcmPacketPool, audioSampleRate, audioChannels, 
audioBitRate, audio_codec_name); 
this->channelRatio = 2.0f; 


以 上 代码 中 将 channelRatio 设 置 为 2.0 是 因为 Android 平 台 采 制 出 的 人 
声 是 单 声 道 的 ， 而 父 类 中 计算 每 一 次 处 理 的 首 频 帆 大 小 
(PacketBufferSize) 时 会 用 到 该 设置 ， 因 为 父 类 是 同时 运行 在 Android 
平台 和 iOS 平 台 的 。 在 iOS 平 台 上 ， 取 出 的 buffer 多 大 束 是 多 大 ; 但 是 在 
Android 平 台 上 ， 由 于 需要 AudioEffectProcessor 将 声音 处 理 成 双 声 道 ， 
此 需要 乘 以 channelRaio 的 参数 。 这 里 最 主要 的 参数 当 属 AudioFffect 


对 象 ， 该 对 象 束 是 声音 特效 的 模型 对 象 ， 里 面包 含 整个 声音 处 理 过 程 
的 音效 参数 。 下 面 提供 一 个 构造 默认 AudioEffect 对 象 的 方法 ， 代 码 如 
中 


AudioEffect* AudioEffectAdapter::buildDefaultAudioEffect(int channels, int 
audioSampleRate, bool isUnAccom) { 

float accompanyVolume = 1.0f， 

float audioVolume = 1.0f; 

SOXFilterChainParam* filterChainParam = SOXFiltercCchainpParam:: 
buildDefaultParam( ) 

std::list<int>* vocalEffectFilters = new std::1list<int>(); 

vocalEffectFilters->push_back(VocalAGCVolumeAdjustEffectFilterType); 

vocalEffectFilters->push_back(CompressorFilterType); 
vocalEffectFilters->push_back(EqualizerFilterType); 
vocalEffectFilters->push_back(ReverbEchoFilterType); 
vocalEffectFilters->push_back(VocalVolumeAdjustFilterType); 

std::list<int>* accompanyEffectFilters = new std::1list<int>(); 

accompanyEffectFilters->push_back(AccompanyAGCVolumeAdjustEffectFilterType); 
accompanyEffectFilters->push_back(AccompanyVolumeAdjustFilterType); 
std::list<int>* mixPostEffectFilters = new std::1list<int>(); 
mixPostEffectFilters ->push_back(FadeOutEffectFilterType); 

int recordedTimeMills = 0; 

int totalTimeMills = 0; 

float accompanyAGCVolume = 1.0f， 

float audioAGCVolume = 1.0f; 

float accompanyPitch = 1.0f， 

float outputGain = 1.0f， 

int pitchshiftLevel = 0; 

AudioInfo* audioInfo = new AudioInfo(channels, audioSampleRate, 
recordedTimeMills, totalTimeMills, accompanyAGCVolume, 
audioAGCVolume, accompanyPitch, pitchshiftLevel); 

return new AudioEffect(audioInfo, vocalEeffectFilters, 
accompanyEffectFilters, mixPostEffectFilters, accompanyVolume, 
audioVolume, filterChainparam, outputGain); 


上 上述 代码 展示 了 一 个 完整 的 构造 AudioEffect 对 象 的 过 程 。 首 先 ， 
在 人 声 和 伴奏 的 处 理 器 链 的 最 前 端 添 加 了 一 个 自动 增益 控制 的 音量 调 
节 效 果 器 ， 在 处 理 器 链 最 后 端 添 加 了 一 个 可 以 让 用 户 自 己 调节 音量 的 
效果 器 。 其 中 ， 类 SOXFilterChainParam 会 将 比较 复杂 的 压缩 效果 器 、 
均衡 占 和 混 啊 紫 的 参数 包含 在 里 面 ， 读 着 可 以 去 代码 仓库 中 找到 源 
码 ， 此 处 不 再 展示 。 使 用 上 壕 构造 的 AudioEffect 可 以 明显 听 到 温 啊 效 
琳 ， 因 此 我 们 暂时 使 用 上 述 参 数 配 置 集成 到 视频 录制 项 目 中 。 


下 面 进 入 真正 的 处 理 过 程 ， 重 写 processAudio 方 法 。 首 先 从 伴奏 队 
列 中 取出 PCM 的 数据 ， 然 后 交 给 首 频 处 理 絮 去 处 理 ， 并 合并 成 为 父 类 
需要 放置 到 packetBuffer 的 全 局 变量 中 ， 代 码 如 下 : 


int AudioProcessEncoderAdapter::processAudio() { 
int ret = packetBufferSize,; 
LiveAudioPacket *accompanyPacket = NULL,; 
If (accompanyPacketPool->getAccompanyPacket(&accompanyPacket, true) < 0) { 
return -1; 


} 
if (NULL != accompanyPacket) { 
int accompanySampleSize = accompanyPacket->size,; 
short* accompanySamples = accompanyPacket->buffer,; 
long frameNum = accompanyPacket->frameNum; 
audioEffectProcessor->process(packetBuffer, packetBufferSize, 
accompanySamples, accompanySampleSize, frameNum); 
delete accompanyPacket; 
accompanyPacket = NULL; 


return ret; 


使 用 这 个 方法 的 时 候 ， 父 类 已 经 把 人 声 从 人 声 队 列 中 取出 来 ， 并 
放 在 分 配 了 2 倍 大 小 空间 的 packetBuffer 的 前 半 部 分 ， 进 入 这 个 类 之 后 ， 
首先 从 伴奏 的 队列 中 取出 伴奏 PCM 的 数据 ， 然 后 将 这 两 轨 音 频 交 给 音 
频 效 果 人 处 理 絮 进行 处 理 ， 处 理 之 后 的 结果 放 入 packetBuffer 中 ， 父 类 会 
0 。 最终 会 在 destroy 方 法 中 销毁 相应 的 资 
源 ， 代 人 码 如 下 : 


void AudioProcessEncoderAdapter::destroy(){ 
accompanyPacketPool->abortAccompanyPacketQueue(); 
AudioEncoderAdapter: :destroy(); 
accompanyPacketPool->destoryAccompanyPacketQueue( ); 
If (NULL != audioEffectProcessor) { 
audioEffectProcessor->destroy(); 
delete audioEffectProcessor,; 
audioEffectProcessor = NULL; 
} 
和 


从 以 上 代码 中 可 以 看 到 ， 首 先 丢 弃 了 伴奏 的 队列 ， 以 免 编码 线程 
会 被 阻 署 在 processAudio 方 法 中 ; 然后 调用 父 类 的 destroy 方 法 ， 父 类 的 
这 个 方法 会 停止 编码 线程 ， 再 销毁 伴奏 的 PCM 队 列 ， 最 终 销 毁 我 们 上 自 
己 创 建 的 音频 效果 处 理 器 。 


这 样 就 将 音频 效果 处 理 器 集成 到 我 们 的 系统 中 了 ， 是 不 是 很 简 
单 ? 在 编辑 页 面 (及 视频 播放 器 中 ) 如 何 集成 音频 效果 处 理 器 以 及 在 
富 线 保存 中 如 何 集成 ， 谈 者 可 以 结合 代码 仓库 中 的 尖 码 部 分 加 深 


2. 集 成 视频 特效 处 理 库 


下 面 会 将 10.3 市 的 视频 特效 库 集成 到 第 7 半 的 视频 孙 制 项 目 中 ， 而 
ee 目 中 有 一 个 模块 是 摄像 头 的 预 氏 与 编码 模块 ， 结 构图 如 
10-11 所 示 。 


l:processVideo 
有 preview renderer View 
> 区 
A \ 2:render To View 
| Camera | myv recording controller |— 
video encoder adapter 
3:encoder 
- 了 H264 
Queue 


图 10-11 


在 图 10-11 中 ， 摄 像 头 采集 了 图 像 之 后 会 传递 到 类 
MVRecordingController 中 。 而 在 控制 絮 中 ， 第 一 步 会 交 由 
PreviewRenderer 处 理 (旋转 、 镜 像 等 操作 ) ， 并 将 这 一 帧 图 像 处 理 成 
为 一 个 RGBA 格 式 的 纹理 ID; 第 二 步 则 通过 控制 絮 将 这 个 RGBA 格 式 的 
纹理 ID 泻 染 到 View 上 ; 最 后 一 步 将 这 个 RGBA 格 式 的 纹理 ID 交 由 编码 
和 编码 成 功 之 后 放 入 编码 器 队列 中 ， 这 就 是 视频 轨 部 分 的 

理 。 


下 面 要 将 视频 效果 处 理 器 集成 到 PreviewRenderer 这 个 类 中 ， 而 这 
个 集成 过 程 对 于 外 界 的 控制 絮 类 来 讲 是 透明 的 。 所 以 改进 之 后 的 
PreviewRenderer 处 理 这 一 帧 图 像 的 流程 如 图 10-12 所 示 。 
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如 图 10-12 所 示 ， 由 于 摄像 头 采 集 的 纹理 ID 是 OES 格 式 的 ， 而 这 与 
第 10.1 记 中 接触 到 的 硬件 解码 右 解 码 的 纹理 格式 是 一 致 的 ， 所 以 可 以 共 
用 copier 的 泻 染 过 程 ， 将 这 个 纹理 做 旋转 和 镜像 ， 最 终 输出 到 RGBA 格 
式 的 rotateTexID 中 。 然 后 再 做 一 个 纹理 图 像 的 裁剪 使 其 适 配 界 面 View 
的 宽 高 ， 因 为 摄像 头 采 集 的 图 像 可 能 是 640x480 的 ， 而 我 们 需要 的 纹理 


可 能 是 640x360 〈\16:9 的 矩形 视频 ) 或 者 是 480x480 (1:1 的 方形 视频 ) 
的 ， 最 终 输 出 到 inputTexId 中 。 在 学 习 本 章 之 前 已 介绍 过 如 何 将 这 个 
inputTexId 返 回 给 控制 器 ， 以 进行 后 续 的 泻 染 界面 和 执行 编码 流程 。 这 
里 则 是 将 inputTexId 交 由 VideoEffectProcessor 处 理 成 为 outputTexId， 然 
后 交 由 控制 絮 执 行 后 续 的 泻 染 过 程 。 下 面 来 看 PreviewRenderer 类 中 代 
码 的 具体 改动 。 


因为 PreviewRenderer 的 初始 化 方法 在 渲染 线程 中 ， 所 以 可 直接 在 
初始 化 方法 中 调用 视频 特效 处 理 絮 的 初始 化 方法 ， 代 码 如 下 : 


void RecordingPreviewRenderer::init(int degress, bool isVFlip, 
int texturewWidth, int textureHeight, int cameraWidth, int cameraHeight) { 
// 原 有 代码 逻辑 不 再 展示 
mProcessor = new VideoEffectProcessor(); 
if(mPprocessor->init()) { 
mpProcessor->removeAllFilters(); 
filterId = mpProcessor->addFilter (PREVIEW_FILTER SEQUENCE_IN, 
PREVIEW_FILTER _ SEQUENCE_OUT, IMAGE_BASE_EFFECT_NAME ) ， 
if(filterId >= 0){ 
mprocessor->invokeFilterOonReady(filterId),; 
} 


} 


} 


从 以 上 代码 可 以 看 到 ， 成 功 初始 化 视频 特效 处 理 絮 之 后 ， 会 完 移 
除 所 有 的 效果 器 ， 然 后 增加 一 个 BaseEffect 类 型 的 效果 器 ， 这 个 效果 器 
仅 完 成 拷贝 工作 。 由 于 是 在 视频 中 预 抠 界面 ， 所 以 会 将 SequenceIn 和 
sequenceOut 分 别 设 置 为 0O 和 很 大 的 值 ， 最 终 执行 这 个 Filter 的 Init 方 法 。 


授 下 来 看 看 处 理 视频 帧 的 改动 ， 代 码 如 下 : 


void RecordingPreviewRenderer::processFrame(float position) { 
glBindFramebuffer(GL_FRAMEBUFFER, FBO); 
// 原 有 代码 逻辑 不 再 展示 
glViewport(0, 0, texturewidth, textureHeight); 
mprocessor->process(inputTexId, 0.0, outputTexId); 
glBindFramebuffer(GL_FRAMEBUFFER, 0); 


从 以 上 代码 可 以 看 到 ， 处 理 视频 蚌 的 调用 十 分 简单 ， 直 接 采 用 输 
入 和 输出 调用 处 理 吉 的 处 理 方法 束 可 。 由 于 这 里 不 需要 使 用 时 间 戳 信 
思 做 额外 的 操作 ， 所 以 第 二 个 参数 暂时 使 用 0.0 作 为 输入 参数 。 接 下 来 
看 看 如 何 切换 效果 器 。 以 美 颜 滤 镜 为 例 ， 代 码 如 下 : 


mpProcessor->removeAllFilters(); 

int filterId = mpProcessor->addFilter(PREVIEW_FILTER_ SEQUENCE_IN, 
PREVIEW_FILTER_ SEQUENCE_OUT, BEAUTIFY_FACE_FILTER_NAME); 

mpProcessor->invokeFilterOnReady(filterId); 


最 终 是 销毁 阶段 ， 这 个 阶段 也 需要 在 OpenGL ES 的 线程 中 执行 ， 
所 以 放 在 0 下 中 ， 代 码 如 下 : 


void RecordingPreviewRenderer::dealloc(){ 
// 原 有 代码 逻辑 不 再 展示 
if(mPprocessor){ 
mpProcessor->dealloc(); 


过 


delete mprocessor; 
mProcessor = NULL， 


至 此 ， 视 频 特 效 处 理 紫 束 集 成 到 了 视频 了 季 制 项 目 中 ， 大 家 可 以 切 
换 成 为 美 颜 滤 镜 查看 预览 中 的 效果 ， 然 后 继续 孙 制 视频 ， 并 查看 最 终 
视频 ， 这 样 就 可 以 看 到 上 自己 的 皮肤 确实 被 美化 了 。 读 者 可 以 到 代码 仓 
库 中 查看 整体 工程 的 代码 ， 或 者 直接 运行 本 市 对 应 的 工程 码 看 效 灯 。 


10.4.2 _ iOS 平台 特效 集成 


在 iOS 平 台 集 成 这 两 个 特效 处 理 库 要 简单 很 多 ， 古 因为 OC 开 
发 语言 多 许 直 接 与 C/C++ 的 混 编 ， 男 一 个 是 因 因为 IOE 提 供 的 便利 性 不 需 
要 开发 者 日 己 去 写 makefile 文 件 ， 这 样 我 们 的 集成 工作 整 变 得 很 位 单 。 


1. 集 成 音频 特效 处 理 库 


音频 特效 处 理 库 的 集成 ， 在 iOS 平 台 上 有 是 很 向 单 的 ， 原 因 如 下 。 在 
第 7 章 的 录制 视频 项 目 中 ， 已 将 iOS 平 台 的 结构 拆 分 得 很 清楚， 
AUGraph 作 为 声音 队列 让 生产 着 ， 编码 线程 作为 声 首 队列 的 消费 者 ， 
Mux 模 块 负责 将 音频 和 视频 封 痛 到 文件 中 ， 整体 结构 如 图 10- 13 所 示 


Bb AAC 
Qe Queue 
££ > 人 ee 人 SN 
Encoder Muxer 
AUGraph Thread - Thread 
Co 区 ~、 多 
MP4 
File 
图 10-13 


从 图 10-13 中 可 以 看 到 ， 首 先 将 AUGraph 中 的 ConvertNode (将 
Float32 格 式 转换 为 SInt16 格 式 的 AudioUnit) 设置 为 RenderCallback， 在 
RenderCallback 方 法 的 实现 中 取出 PCM 数 据 ; 然后 将 数据 封装 为 
AudioPacket 的 数据 结构 放 入 PCM 的 队列 中 ， 再 经 由 编码 器 线程 从 这 个 
队列 中 取出 PCM 数 据 ， 编 码 之 后 封 儿 为 AAC 的 Packet， 并 存 入 AAC 的 
队列 中 ; 最 后 由 Muxer 线 程 从 AAC 队 列 中 取出 进行 封装 ， 使 其 成 为 MP4 
并 写 入 本 地 磁盘 中 。 在 10.2 玫 中 ， 集 成 入 压缩 效果 器 、 均 衡 右 和 混 啊 效 
果 器 之 后 ， 整 个 AUGraph 已 经 成 为 图 10-8 所 示 的 结构 ， 所 以 集成 音频 效 
果 妖 仅 在 AUGraph 这 个 模块 进行 了 变换 ， 并 没有 影响 之 后 所 有 的 流 
程 。 因 此 ， 对 于 PCM 队 列 来 讲 ， 也 仅仅 改变 了 生产 者 的 结构 ; " 
消费 者 及 其 他 模块 来 说 ， 是 没有 任何 侵入 式 影 响 的 。 也 束 是 说 ， 


PCM 队 列 作 为 一 个 接口 将 整个 系统 拆 分 开 ， 达 到 了 低 耦 合 的 目的 。 具 
体 的 集成 代码 ， 其 实 就 是 将 10.2 节 中 的 AUGraph 替 换 过 来 。 


在 编辑 ( 预 哎 ) 阶段 的 流程 ， 也 更 改 了 对 应 的 AUGraph， 即 在 中 
间 增 加 压缩 效 末 器 、 均 衡器 以 及 混 啊 效果 器 ， 只 不 过 这 个 阶段 的 
AUGraph 的 人 声 输入 不 再 是 RemoteIO 这 个 AudioUnit， 而 应 该 通过 
AudioFilePlayer 这 个 AudioUnit 来 解码 一 个 已 经 存在 的 人 声 文 件 ， 经 过 
处 理 之 后 ， 最 终 和 当前 伴 委 解码 的 AudioFilePlayer 这 个 AudioUnit 进 行 
Mix， 再 输送 给 RemoteIO 并 播放 给 用 户 听 ， 而 RemoteIO 束 是 这 个 
AUGraph 的 驱动 源 。 整 个 流程 在 离线 保存 阶段 也 是 一 样 的 ， 只 不 过 驱 
动 源 不 一 样 ， 这 一 点 在 10.2 节 有 详细 讲解 ， 这 里 不 再 警 述 。 读 者 可 以 参 
考 代 码 仓库 中 的 源码 进行 分 机 ， 便 于 深入 理解 。 


2. 集 成 视频 特效 处 理 库 


下 面 将 视频 特效 处 理 器 集成 入 视频 录制 项 目 中 ， 先 来 回顾 第 7 章 中 
视频 录制 项 目 中 的 视频 轨 是 如 何 处 理 的 ? 


如 图 10-14 所 示 ， 首 先 利用 系统 将 开发 者 提供 的 Camera 末 集 一 帧 
YUV 格 式 的 图 像 ， 然 后 进入 VideoCamera 这 个 万 点 ， 这 个 和 点 会 将 
CMSampleBuffer 中 的 YUV 格 式 的 数据 转换 为 一 个 RGBA 的 纹理 ID。 并 
将 其 分 为 两 个 分 文 ， 其 中 一 条 文 路 到 ImageView 这 个 节点 ， 这 个 万 点 会 
把 输入 的 纹理 ID 洽 染 到 一 个 UIView 上 ， 最 终 让 用 户 预 览 到 图 像 ， 另 外 
一 条 文 路 到 VideoEncoder 这 个 节点 ， 这 个 蔬 点 会 把 输入 的 纹理 ID 编码 成 
为 H264 的 数据 ， 再 封 狼 为 我 们 目 己 的 VideoPacket 的 结构 体 对 象 并 放 入 
视频 编码 队列 中 ， 之 后 再 由 Muxer 模 块 取出 进行 封闭， 并 最 终 写 入 人 磁 强 
文件 。 这 个 过 程 中 重点 来 看 中 间 处 理 纹理 ID 的 三 个 方 点 ，10.3 市 讲解 的 
视频 特效 处 理事 的 输入 和 输出 都 是 一 个 RGBA 格 式 的 纹理 ID， 而 将 它 老 
装 为 一 个 太 点 并 插入 VideoCamera 广 点 之 后 、ImageView 和 VideoEncoder 
闻 点 之 前 ， 是 最 合理 的 。 所 以 集成 入 视频 特效 处 理 器 之 后 ， 我 们 只 展 
示 中 间 的 结构 图 ， 如 图 10-15 所 示 。 
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下 面 介 绍 如 何 封闭 一 个 节点 ， 以 及 如 何 将 视频 特效 处 理 需 集成 进 
来 。 首 先 ， 新 建 一 个 类 ELImageVideoFilter， 由 于 这 个 节点 要 输出 一 个 
outputTexId， 所 以 要 继承 自 ELImageOutput， 并 且 这 个 节点 还 要 依靠 
VideoCamera 万 点 提供 输入 ， 因 此 要 实现 ELImageInput 这 个 Protocol。 最 
终 ， 这 个 新 建 类 的 接口 文件 声明 如 下 : 


@interface ELImageVideoFilter : ELImageOutput<ELImageInput> 
-(void)switchFilter:(ELVideoFiltersType)filterType; 


@end 


从 以 上 代码 可 以 看 到 ，ELImageVideoFilter 类 还 有 一 个 公有 的 方 
法 ， 这 个 方法 是 用 来 切换 视频 滤 镜 的 。 接 下 来 将 类 的 实现 文件 
由 “m" 的 后 组 名 改 为 “mm” 的 后 缀 名 ， 因 为 视频 特效 处 理 库 是 一 套用 
C++ 语言 实现 的 库 ， 而 在 OC 中 要 想 调 用 C++ 的 库 ， 吏 得 将 实现 文件 的 


后 级 名 改 为 “mm”。 我 们 重 写 父 类 中 生命 周期 方法 ， 站 先 接受 上 一 级 廊 
点 处 理 完 毕 的 纹理 ID 的 方法 ， 这 个 方法 需要 将 输入 纹理 ID 保存 下 来 ， 
作为 整个 泻 染 过 程 的 输入 纹理 ID， 代 码 如 下 : 


- (void)setIinputTexture: (ELImageTextureFrame *)textureFrame; 


_inputFrameTexture = textureFrame; 


第 二 个 生命 周期 方法 束 是 泡沫 视频 帧 方法 ， 这 个 方法 就 是 当 新 的 
一 帧 需要 演 染 的 时 候 由 上 一 级 节点 进行 调用 ， 这 个 方法 是 在 OpenGL 
0 因此 它 可 以 实例 化 并 初始 化 视频 特效 处 理事 ， 代 
码 如 下 : 


- (void)newFrameReadyAtTime: (CMTime)frameTime timimgInfo: (CMSampleTimingInfo) 
timimgInfo,; 
{ 


If(!_processor){ 
_processor = new VideoEffectProcessor(); 
_processor->init(); 
_processor->removeAllFilters(); 
int filterId = _processor->addFilter(PREVIEW FILTER SEQUENCE_IN, 
PREVIEW_FILTER SEQUENCE_OUT, IMAGE_BASE_EFFECT_NAME ) ， 
if(filterId >= 0){ 
_processor->invokeFilterOonReady(filterId); 


[[self outputFrameTexture] activateFramebuffer]; 
_processor->process([_inputFrameTexture texture], 0.0, [[self 
outputFrameTexture] texture] ); 
for (id<ELImageInput> currentTarget in targets){ 
[currentTarget setInputTexture:_processedFrameTexture]; 
[currentTarget newFrameReadyAtTime:frameTime timimgInfo:timimgInfo]; 
} 
} 


从 以 上 代码 中 可 以 看 到 ， 首 先 会 对 Processor 进 行 判 断 ， 如 果 没 有 
初始 化 ， 职 进行 初始 化 ;然后 在 初始 化 过 程 中 默认 为 视频 特效 处 理 需 
加 入 一 个 直通 的 效果 需 ， 即 BaseEffect， 作 用 的 开始 时 间 为 定义 的 一 个 
安 ， 是 0(， 结 束 时 间 也 是 定义 的 一 个 安 ， 约 为 10 个 小 时 ， 而 在 永 制 视频 
阶段 不 会 根据 时 间 惟 做 特殊 处 理 ， 所 以 第 二 个 参数 传递 的 时 间 鹤 为 
0.0。 下 面 绑 定 输出 到 纹理 对 象 的 FBO 上 ， 之 后 调用 处 理 器 将 输入 纹理 
对 象 泻 染 到 输出 纹理 对 象 上 ， 最 后 将 输出 纹理 对 象 设 置 为 下 一 级 忆 点 
输入 纹理 对 象 并 调用 下 一 级 节点 的 泻 染 方法 。 


还 记得 在 接口 文件 中 声明 了 一 个 公有 方法 吗 ? 是 的 ， 我 们 现在 要 
来 实现 这 个 方法 ， 即 切换 视频 滤 镜 的 方法 ， 因 为 切换 滤 镜 的 方法 有 可 
能 在 主线 程 中 调用 。 为 了 保证 线程 安全 ， 在 这 个 方法 中 仅 设置 一 个 变 
量 标志 ， 代 表 需 要 更 改 视频 滤 锐 ， 并 把 要 更 改 的 滤 镜 类 型 保存 到 全 局 
变量 中 ， 代 码 如 下 : 


-(void)switchFilter:(ELVideoFiltersType)filterType 


if(filterType != curELVideoFiltersType)t{ 
curELVideoFiltersType = filterType; 
isVideoFilterChanged = true,; 
} 
} 


具体 的 更 改 滤 镜 的 行为 ， 需 要 等 到 下 一 帧 泻 染 的 时 候 再 去 执行 ， 
所 以 在 newErameAtTime 函 数 的 最 后 执行 如 下 代码 : 


if(isVideoFilterChanged){ 
self.processor->removeAllFilters(); 
int filterId = -1; 
switch (filterType) { 
case PREVIEW_ BEAUTY_FACE: 
filterId = self.processor->addFilter (PREVIEW_FILTER_ SEQUENCE_IN, 
PREVIEW_FILTER _ SEQUENCE_OUT, BEAUTIFY_FACE_FILTER_NAME ) ， 
break; 
case PREVIEW_NONE: 
default: 
filterId = self.processor->addFilter (PREVIEW_FILTER_ SEQUENCE_IN, 
PREVIEW_FILTER _ SEQUENCE_OUT, IMAGE_BASE_EFFECT_NAME ) ， 
break; 


} 
if(filterId >= 0){ 
self.processor->invokeFilterOonReady(filterId),; 


} 
isVideoFilterChanged = false,; 


从 以 上 代码 中 可 以 看 到 ， 会 先 移 除 之 前 所 有 的 效果 絮 ;， 然 后 按照 
效 末 器 类 型 添加 到 对 应 的 效果 器 ; 最 后 销毁 资源 ， 但 不 要 把 销毁 资源 
的 代码 放 入 dealloc 方 法 中 ， 因 为 这 个 方法 的 调用 也 必须 在 OpenGL ES 的 
线程 中 执行 ， 而 系统 自动 调用 的 dealloc 方 法 却 不 是 在 OpenGL ES 线程 中 
调用 的 ， 所 以 destroy 方 法 的 代码 如 下 : 


if(_processor) { 
_processor->dealloc(); 
delete _processor; 


_processor = NULL; 


至 此 ，VideoFilter 这 个 节点 就 构建 完毕 。 这 个 市 点 完成 的 效果 如 
下 : 接受 上 一 级 节点 的 输出 纹理 ID 作 为 输入 纹理 ID; 然后 调用 视频 特 
效 处 理 硕 按照 设 定 的 滤 镜 效果 把 输入 纹理 ID 洽 染 到 一 个 新 的 纹理 ID 
上 ， 再 把 新 的 纹理 ID 作为 输出 纹理 ID 分 别 设置 给 ImageView 有 点 和 
VideoEncoder 玫 点 ， 这 样 用 户 职 可 以 分 别 在 预 咒 界面 以 及 最 终生 成 的 文 
件 上 看 到 添加 了 滤 镜 效果 的 视频 轨 。 


为 了 添加 视频 滤 镜 功能 ， 这 里 仅 引 入 一 个 库 ， 然 后 添加 一 个 节点 
束 完 成 。 这 比较 符合 [ 开 闭 原则 ] 的 设计 原则 。 而 这 都 是 因为 最 初 设 计 这 
一 套 系统 时 抽取 了 ELImageOutput 这 个 父 类 ， 并 建立 了 ELImageInput 这 
个 Protocol， 这 其 实 都 是 高 度 抽象 的 结果 。 也 正 因 为 这 个 抽象 过 程 ， 才 
使 得 我 们 现在 集成 一 个 新 的 节点 这 么 价 单 方便 。 有 的 读者 可 能 会 说 ， 
组 织 市 点 的 地 方 是 需要 改动 代码 的 ， 是 的 ， 目 前 我 们 的 系统 是 需要 在 
组 织 市 点 的 地 方 改动 代码 ， 但 是 我 们 完全 可 以 将 组 织 方 点 的 部 分 改 为 
读 取 配 置 文 件 的 方式 来 组 织 季 点 ， 这 样 又 可 以 将 这 部 分 对 代码 的 改动 
给 剥离 出 去 。 因 此 ， 对 于 整个 系统 的 架构 与 设计 ， 笔 者 建议 读者 可 以 
多 思考 ， 多 总 结 ， 慢 慢 束 可 以 将 一 个 系统 设计 得 越 来 越 好 。 


至 此 ， 在 iOS 平 台中 ， 已 成 功 将 音频 效果 处理 絮 和 视频 效果 处 理 絮 
集成 到 了 视频 和 永 制 项 目 中 ， 而 整个 集成 过 程 也 比较 简单 ， 读 者 可 以 去 
代码 仓库 中 找到 本 广 对 应 的 源码 ， 然 后 笑 试 录制 一 个 视频 ， 再 将 这 个 
人 比 ， 看 看 第 8 章 和 第 9 章 是 否 完 成 了 当初 我 们 
/A JJ 入 号 


10.5 ”本草 小 结 


至 此 ， 本 书 的 第 二 部 分 就 结束 了 ， 不 得 不 说 这 一 部 分 对 于 音 视 频 
的 开发 多 么 重要 ， 因 此 用 了 很 大 篇 幅 介 绍 这 些 内 容 。 笔 者 希望 读者 在 
接受 新 知识 的 同时 ， 也 要 提高 目 己 的 系统 以 构 能 力 。 本 章 将 音频 与 视 
频 的 特效 处 理 库 集 成 到 系统 中 的 操作 之 所 以 这 么 简单 ， 是 因为 第 7 章 中 
将 模块 拆 分 得 比较 合理 ， 使 用 了 面向 接口 编程 (抽象 基 类 
ELImageOutput 与 协议 ELImageInput) ， 将 整个 系统 回 更 高 层次 进行 了 
抽象 (抽象 出 Input、Processor、Output 等 各 个 模块 ) 。 相 信和 随 着 本 书 
的 进行 ， 读 者 也 会 慢 慢 理解 一 个 好 的 系统 架构 给 大 家 市 来 的 好 处 。 


前 面 所 构建 出 的 系统 在 音 视 频 领域 常 被 大 家 称 为 录 播 ， 而 在 接 下 
来 的 章 廊 中， 笔者 会 继续 带领 大 家 进入 直播 领域 ,看 看 如 何 将 系统 集 
成 到 直播 领域 ， 并 日 会 一 步 步 分 析 直 播 领 域 与 录 播 领域 的 差别 是 什 
么 ， 以 及 应 该 做 些 什么 就 可 以 使 得 系统 运行 在 直播 领域 。 在 一 个 直播 
App 中 ， 视 频 的 孙 制 端 称 为 推 流 端 ， 而 播放 妖 端 称 为 拉 流 六 ， 人 磁盘 的 
IO 则 变 为 网 络 的 TO 。 一 般 来 说 ， 在 直播 领域 会 使 用 第 三 方 的 CDN 广 
商 作 为 中 间 的 流 媒 体 服 务 絮 ， 这 样 就 可 以 以 更 快 的 速度 和 更 便宜 的 带 
宽 给 用 户 带 来 更 好 的 体验 。 但 是 一 个 直播 App 并 不 是 只 有 了 这 三 个 角 
色 就 可 以 运行 起 来 的 ， 这 三 个 角色 只 是 最 基础 、 最 核心 的 部 分 。 男 
外 ， 还 有 聊天 系统 、 礼 物 系 统 等 ， 这 些 系统 的 构建 在 接 下 来 的 章节 中 
都 会 有 介绍 ， 但 是 我 们 的 重点 还 是 会 放 在 推 流 端 和 拉 流 端的 网 络 适 配 
上 。 让 我 们 一 起 进入 直播 领域 ,看 看 一 个 直播 App 是 如 何 构 建 起 来 


入。 


第 11 草 ”直播 应 用 的 构建 


本 章 将 会 市 领 大 家 走 进 直 播 领域 。 直播 的 实现 思路 与 大 多 数 产 品 
的 实现 思路 一 样 ， 首 先进 行 场景 分 析 ， 然 后 在 分 析 场 景 的 过 程 中 拆 分 
直播 系统 的 各 个 模块 ， 并 进行 大 致 的 技术 选 型 ， 再 依次 介绍 各 模块 的 
具体 实现 手段 及 其 优 缺 点 。 


11.1 直播 场景 分 析 


在 直播 领域 ， 大 致 可 以 分 为 两 种 类 型 的 直播 : 一 种 是 非 交 互 式 直 
播 ， 男 外 一 种 是 交互 式 直 播 。 非 交互 式 直 播 的 典型 场景 有 : 2015 年 9 月 
的 反 法 西 斯 阅兵 直播 ， 某 些 体育 直播 等 。 这 些 直 播 因 为 其 交互 性 不 
强 ， 所 以 允许 延迟 (从 视频 中 主体 发 生 实际 的 行为 到 该 行为 被 用 户 看 
到 的 时 间 ) 10s 或 者 10s 以 上 。 非 交互 式 直播 的 特点 是 : 源 ( 像 阅 兵 直 
播 、NBA 直 播 、 欧 冠 直播 等 ) 比较 少 ， 适 合 做 多 路 转 码 (用 户 可 以 根 
据 网 络 条 件 观看 超 清 、 高 清 、 标 清 等 多 路 视频 ) 。 区 互 式 直播 的 典型 
场景 有 : 务 声 直播、 游戏 直播 等 。 这 些 直播 因为 对 主播 和 观众 的 互动 
性 要 求 比较 高 ， 所 以 要 求 延 迟 在 5s 以 内 。 交 互 式 直播 的 特点 是 : 源 
( 像 美女 主播 、 游 戏 主播 ) 比较 多 ， 不 适合 做 多 路 转 码 ， 中 间 服 务 器 
只 作为 一 个 中 转 的 角色 。 


直播 中 ， 传 输 的 介质 是 网 络 ， 而 网 络 中 传播 视频 或 者 音频 时 需要 
使 用 对 应 的 协议 ， 目 前 适合 直播 场景 的 第 用 协议 有 如 下 几 种 。 


.RTMP 协 议 : 长 连接 ， 低 延 时 (3s 左右) ， 网 络 穿 透 性 差 。 
.HLS 协 议 : HTTP 的 流 媒 体 协议 ， 高 延 时 (10s 以 上 ) ， 跨 平台 性 


较 好 


.HDL 协议 : RTMP 协 议 的 升级 版 ， 低 延 时 〈2s 左 右 ) ， 网 络 穿 透 性 
Fo 


:RTP 协议 ， 低 延 时 (1s 以内) ， 默 认 使 用 UDP 作为 传输 协议 。 


因此 ， 我 们 应 该 护照 目 己 的 场景 来 选择 协议 ， 如 有 条 是 非 交 互 式 场 
景 ， 则 选择 HLS 协 议 更 适合 ， 如 采 走 交互 式 场景 ， 则 选择 HDL 协议 或 
者 RTMP 协 议 较 合 适 。RTP 协 议 币 用 于 视频 会 议 或 直播 的 连 专 场景 
不 直接 用 于 一 对 多 的 直播 场景 中 。 


接 下 来 看 看 交互 式 直 播 场 景 下 可 以 拆 分 为 哪些 模块 。 最 基础 、 最 
核心 的 应 该 是 推 流 系统 、 拉 流 系统 和 流 媒 体 服务 器 (Live Server) ， 并 
由 这 三 部 分 共同 组 成 整个 直播 系统 的 主播 并 和 用 户 端 之 间 在 视频 或 者 
音频 内 容 上 的 交互 。 整 体 流 程 是 主播 使 用 推 流 系统 将 采集 的 视频 和 音 
频 进 行 编码 ， 并 最 终 发 送 到 流 媒 体 服 务 嚣 上; 用户 端 使 用 拉 流 系统 将 


流 媒 体 服务 器 上 的 视频 资源 进行 播放 。 整 个 过 程 是 一 种 发 布 者 /订阅 者 
(Publisher/Subscriber) 的 模式 ， 如 图 11-1 所 示 。 


推 流 系 统 拉 流 系统 
Http Server 

礼物 系统 聊天 系统 
Live Server 

社交 系统 支付 系统 
图 11-1 


作为 一 个 完整 的 产品 ， 仅 有 这 三 个 模块 是 远 远 不 够 的 ， 最 直观 
的 ， 缺 少 礼物 系统 〈 可 让 观众 给 喜欢 的 主播 送礼 物 ) ， 礼 物 系 统 可 以 
为 App 拥 供 礼物 动 效 的 展示 等 ， 既 然 观众 能 送礼 物 给 用 户 ， 束 要 有 充值 
功能 ， 所 以 必须 有 文 付 系统 来 提供 用户 充值 、 主 播 提现 等 功能 。 在 直 
播 过 程 中 ， 主 播 想 和 观众 说 话 ， 观 众 在 很 短 时 间 内 就 可 以 在 视频 中 听 
到 ， 但 是 观众 想 和 主播 进行 交流 ， 只 能 徘 聊天 系统 来 实现 ， 聊 天 系统 
征用 来 建立 观众 到 主播 的 反馈 通道 。 直 播 这 种 行为 实际 上 有 是 一 种 社区 
行为 ， 而 任何 一 个 直播 产品 都 应 该 是 一 种 社交 产品 ， 所 以 还 需要 社交 
系统 ， 为 观众 和 主播 提供 长 期 有 效 的 社交 行为 〈《 比 如， 根据 关注 关系 
适时 推送 “关注 的 主播 ?开播 了 ， 或 者 展示 关注 主播 的 开播 列表 以 及 视 
频 回 放 列 表 等 ) 。 除 了 推 流 系统 和 拉 流 系统 外 的 四 个 系统 ( 见 图 11- 
1) ， 都 需要 与 服务 器 进行 交互 ， 我 们 称 之 为 Http Server， 即 服务 器 模 
块 。 绿 上 所 述 ， 最 终 整 体 结构 如 图 11-1 所 示 。 


一 般 情 况 下 社交 系统 包括 但 不 限于 以 下 的 功能 : 
:第 三 方 登录 (包括 微 博 、 微 信 、QQ 等 ) ; 
-第 三 方 分 享 (包括 微 博 、 微 信 、QQ 等 ) ; 
手机 号 的 登录 与 绑 定 ; 

地理 位 置 的 使 用 ; 


-站 内 关系 (关注 与 粉丝 以 及 自己 的 Feed 列 表 ) ; 
-推送 策略 以 及 用 户 端 收 到 推送 之 后 的 跳 转 行为 ; 
后 台 系 统 ， 用 于 提供 给 客服 、 运 昔 人 员 操 作 榜 单 以 及 推荐 用 户 等 


11.2 ” 拉 流 播放 融 的 构建 


本 贡 将 基于 视频 播放 器 来 构建 用 户 端 的 拉 流 播放 器 。 我 们 已 在 第 5 
半 详 细 讲 解 了 播放 妖 的 结构 ， 它 是 使 用 FFmpeg 的 libavformat 模 块 来 处 
理 协议 层 与 解 封装 层 的 细节 ， 并 使 用 FFmpeg 的 libavcodec 模 块 来 解码 
得 到 原始 数据 ， 最 终 使 用 OpenGL ES 泻 染 视频 以 及 使 用 对 应 的 API 来 泻 
染 首 频 。 

相 较 于 录 播 的 实现 ， 直 播 中 的 拉 流 播放 器 的 使 用 时 长 〈 短 则 几 十 
分 钟 ， 长 则 几 个 小 时 ) 会 更 长 ， 所 占用 的 CPU 资源 (观众 界面 还 会 
聊天 的 长 连接 、 动 画 的 展示 等 ) 也 会 更 多 ， 所 以 必须 将 第 10 章 中 讲解 
的 硬件 解码 器 集成 进来 。 再 者 ， 网 络 直 播 中 某 些 主播 由 于 环境 光 的 因 
素 ， 或 者 网 络 带 虹 的 因素 ， 导 人 致 视频 不 是 很 清楚 ， 所 以 要 在 拉 流 播放 
必 中 加 入 一 个 后 处 理 过 程 ， 以 增加 视频 的 清晰 度 。 这 里 以 增加 对 比 度 
来 作为 这 个 后 处 理 过 程 的 实现 ， 当 然 在 实际 生产 过 程 中 ， 可 以 增加 一 
些 去 块 小 波 右 、 锯 化 等 效果 絮 。 


11.2.1  _ Android 平台 播放 需 增 加 后 处 理 过 程 


要 想 打 开 网 络 连 接 ， 必 须知 道 媒 体 源 的 协议 ， 也 要 在 编译 FFmpeg 
的 过 程 中 打开 对 应 的 网 络 协 议 ， 比 如 HTTP、RTMP 或 者 HLS 等 协议 。 
解码 器 解码 的 目标 是 纹理 ID， 为 此 还 建立 了 一 个 纹理 对 象 的 循环 队列 
用 于 存储 解码 之 后 的 纹理 对 象 。 整 个 解码 器 模块 的 运行 流程 如 图 11-2 所 
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图 11-2 看 起 来 有 点 复杂 ， 下 面 逐 一 解释 。 首 和 多 是 AVSync 模 块 初始 


化 解码 右 的 过 程 ， 解 码 


BR AN、、 
及 人 


连 


接 远 程 的 流 巡 体 服务 厚 ， 如 条 打开 连接 


失败 ， 则 启用 重 试 案 上 略 重 试 几 次 ， 如 果 依 然 没 能 成 功 ， 则 提示 给 用 
户 ; 如 果 连 接 成 功 ， 则 开启 Uploader 线 程 ， 即 最 右 侧 柳 色 部 分 。 

Uploader 线 程 是 一 个 OpenGL ES 线程 ， 当 解码 絮 是 软件 解码 絮 实 例 的 时 
候 ， 这 个 线程 的 职责 束 是 将 YUV 数 据 上 传 到 显卡 上 并 成 为 一 个 RGBA 
格式 的 纹理 ID;， 当 解码 絮 是 人 硬件 解码 絮 实 例 的 时 候 ， 这 个 线程 的 职责 
就 是 将 硬件 解码 右 解 码 出 来 的 OES 格 式 的 纹理 ID 转 换 为 RGBA 格 式 的 纹 


理 ID。 在 实现 Uploader 这 个 模块 的 过 程 中 ， 要 设 定 一 个 父 类 ， 然 后 对 应 
于 两 个 子 类 (软件 解码 器 与 硬件 解码 器 对 应 的 Uploader) 分 别 完成 各 自 
的 职责 。 注 意 这 里 在 为 这 个 线程 开启 OpenGL ES 上 下 文 的 时 候 ， 需 要 
和 演 染 线程 共享 上 下 文 环 境 ， 这 样 OpenGL ES 的 对 象 在 这 两 个 线程 中 
才 可 以 共同 使 用 。 当 Uploader 线 程 开始 运行 以 后 ， 会 进入 一 个 循环 ， 循 
环 一 开始 先 阻塞 (wait) 住 ， 等 待 解码 线程 发 送 Signal 指 令 再 去 做 上 传 
纹理 操作 ， 之 后 进入 下 一 次 循环 ， 也 会 先 阻塞 (wait) 住 ， 周 而 复 始 ， 
完成 整个 纹理 上 传 工作 。 


成 功 开 启 Uploader 线 程 之 后 ， 初 始 化 工作 就 结束 了 ， 等 到 AVSync 
模块 中 的 解码 线程 开始 工作 后 ， 解 码 龙 才 会 调用 FFmpeg 的 libavformat 
模块 进行 解析 协议 与 解 封 装 (Demuxer) ， 再 调用 具体 实例 (有 可 能 是 
软件 解码 器 ， 也 有 可 能 是 硬件 解码 器 ) 的 解码 方法 。 解 码 成 功 之 后 就 
会 给 Uploader 线 程 发 送 一 个 Signal 指 令 ， 之 后 这 个 解码 线程 就 等 待 
Uploader 线 程 处 理 完 这 一 帧 视频 帧 之 后 ， 解 码 线程 再 继续 运行 ， 如 图 
11-2 中 间 部 分 所 示 。 


竺 Uploader 线 程 接收 到 Signal 指 令 后 ， 就 会 执行 上 传 (转换 ) 纹理 
的 工作 ， 而 在 转换 成 为 一 个 RGBA 格 式 的 纹理 对 象 后， 就 会 调用 回调 画 
数 〈 在 初始 化 过 程 中 ，AVSync 传 递 过 来 的 回调 函数 ) 来 处 理 这 一 帧 视 
频 帧 ， 并 将 这 一 帧 视频 帧 拷贝 到 循环 纹理 队列 中 。 虽 然 将 纹理 对 象 丘 
贝 到 循环 纹理 队列 中 的 行为 是 在 Uploader 线 程 中 实现 的 ， 但 是 在 
AVSync 的 相关 代码 中 ， 这 也 是 为 了 降低 各 个 模块 的 而 合 度 。 所 以 这 里 
要 在 AVSync 模 块 中 加 入 视频 特效 处 理 硕 ， 每 当 解 码 右 中 解码 一 帧 纹理 
ID 时 ， 束 交 给 视频 特效 处 理 右 进行 处 理 ， 行 处 理 完毕 之 后 再 将 这 一 帕 
纹理 对 象 加 入 循环 纹理 队列 中 。 当 然 ， 这 里 仅 使 用 增加 对 比 度 作 为 特 
效 处 理 右 中 的 作用 效果 右 ， 读 着 也 可 以 将 去 块 滤波 右 以 及 钢化 效果 各 
加 入 特效 处 理 夯 中 ， 以 增加 后 处 理 的 效 采 。 


要 实现 上 述 功 能 ， 需 要 新 建 一 个 LiveShowAVSync 的 类 ， 继 承 目 类 
AVSync， 并 重 写 父 类 中 的 三 个 回调 方法 。 第 一 个 是 当 Uploader 线 程 初 
台 化 成 功 之 后 的 回调 方法 ， 代 码 如 下 : 


void LiveShowAVSynchronizer::OnInitFromUploaderGLContext(EGLCore* eglCore, 
int videoFrameWidth, int videoFrameHeight) { 
videoEffectProcessor = new VideoEffectProcessor(); 
videoEffectProcessor->init(); 
int filterId = videoEffectPprocessor->addFilter(0, 1000000 * 10 * 60 * 60, 
PLAYER_CONTRAST_FILTER_NAME ) ， 
if(filterId >= 0){ 


videoEffectProcessor->invokeFilterOoOnReady(filterId); 


} 

glGenTextures(1, &mOutputTexId); 

glBindTexture(GL_TEXTURE_2D, mOutputTexId); 

glTexParameteri(GL_TEXTURE_2D, GL_TEXTURE_MIN_FILTER, GL_LINEAR); 

glTexParameteri(GL_TEXTURE_2D, GL_TEXTURE_MAG_FILTER, GL_LINEAR); 

glTexParameteri(GL_TEXTURE_2D, GL_TEXTURE_ WRAP_S, GL_CLAMP_TO_EDGE); 

glTexParameteri(GL_TEXTURE_2D, GL_TEXTURE_ WRAP_T, GL_CLAMP_TO_EDGE); 

glTexImage2D(GL_TEXTURE_2D, 0, GL_RGBA, videoFrameWidth, 
videoFrameHeight, 0, GL_RGBA, GL_UNSIGNED_BYTE, 0); 

glBindTexture(GL_TEXTURE_2D, 0); 

AVSynchronizer: :OnInitFromUploaderGLContext(eglCore, 
videoFramewWidth, videoFrameHeight); 


如 上 述 代 码 所 示 ， 由 于 这 个 回调 函数 的 调用 发 生 在 Uploader 线 程 
中 ， 并 且 Uploader 线 程 已 经 准备 好 了 OpenGL ES 上 下 文 ， 也 绑 定 好 了 
OpenGL ES 上 下 文 ， 所 以 这 里 就 是 初始 化 特 殖 处 理 融 的 好 时 机 “。 同 
上 时， 还 要 初始 化 一 个 输出 纹理 ID， 因 为 经 过 特效 处 理 屁 处 理 后 要 有 一 
个 纹理 ID 作 为 输出 ， 我 们 设 定 mOutputTexId 来 接受 处 理 结束 之 后 的 纹 
理 ID 。 


授 春 来 看 如 何 处 理 一 帧 视频 巾 ， 重 写 父 类 的 处 理 视频 幅 的 方法 ， 
代码 如 下 : 


void LiveShowAVSynchronizer::processVideoFrame(GLuint inputTexId, int width, 
int height, float position){ 
GLuint outputTexId = inputTexId; 
if(videoEffectProcessor){ 
videoEffectProcessor->process(inputTexId, position, mOutputTexId); 
outputTexId = mOutputTexId; 


AVSynchronizer::processVideoFrame(outputTexId, width, height, position); 


土 述 代码 也 很 位 单 ， 如 琳 视 频 特效 处 理 融 存在 ， 下 将 处 理 右 处 理 
过 的 纹理 ID (mOutputTexId) 交 由 父 类 复制 到 循环 纹理 队列 中 去 。 最 
后 一 个 需要 重 写 的 方法 是 销毁 资源 的 方法 ， 代 码 如 下 : 


void LiveShowAVSynchronizer::onDestroyFromUploaderGLContext() { 
If (NULL != videoEffectProcessor) { 
videoEffectProcessor->dealloc(); 
delete videoEffectProcessor,; 
videoEffectProcessor = NULL,; 


} 
If (-1 != outputTexId) { 
glDeleteTextures(1, &outputTexId); 


AVSynchronizer: :onDestroyFromUploaderGLContext(); 


因为 这 个 方法 的 调用 也 是 发 生 在 Uploader 线 程 中 的 ， 所 以 也 符合 视 
频 特效 处 理 器 的 销毁 方法 需求 ， 同 时 ， 还 要 删 除 分 配 的 这 个 输出 纹理 
ID， 最 后 调用 父 类 的 销 蝶 资源 方法 。 


至 此 ， 后 处 理 过 程 束 集成 到 了 播放 需 中， 在 网 络 状态 下 这 对 视频 
的 清晰 度 也 会 有 一 个 增强 的 效果 。 虽 然 这 里 只 新 增 了 类 而 没有 修改 旧 
的 代码 ， 但 也 达到 了 增加 功能 的 效果 ， 可 见 ， 最 初 有 一 个 合理 的 架构 
设计 多 么 重要。 


除了 新 增 这 个 功能 外 ， 我 们 还 有 比较 重要 的 适 本 工作 要 做 。 读 者 
可 否 还 记得 在 AVSync 模 块 里 定义 了 三 个 宏 用 来 控制 解码 线程 的 局 动 和 
暂停 ， 以 及 音 视 频 对 齐 策略 ? 之 前 定义 的 宏 如 下 : 


#define LOCAL_MIN_BUFFERED_DURATION 
#define LOCAL_MAX_BUFFERED_DURATION 
#define LOCAL_AV_SYNC_MAX_TIME_DIFF 


品 口 口 
© 
ol 


这 三 个 值 放 在 网 络 环境 中 就 需要 做 适 配 ， 否 则 会 出 现 视频 的 卡 
人 
中: 


#define NETWORK MIN_BUFFERED_DURATION 
#define NETWORK MAX_ BUFFERED_DURATION 
#define NETWORK_AV_SYNC MAX_TIME_ DIFF 


OD 
WOO 


人 
人 码 如 下 : 


void LiveShowAVSynchronizer::initMeta() { 
this->maxBufferedDuration = NETWORK_MAX_BUFFERED_DURATION; 
this->minBufferedDuration = NETWORK_MIN_BUFFERED_DURATION; 
this->syncMaxTimeDiff = NETWORK_AV_SYNC_ MAX_TIME_DIFF; 


} 


这 样 ， 本 地 视频 播放 右 制 作 好 了 播放 网 络 视频 的 适 配 ， 拉 流 播 放 
右 也 可 以 使 用 ， 读 着 可 以 参考 代码 仓库 中 的 源码 ， 以 便 加 深 理 解 。 


11.2.2 _ iOSs 平 台 播 放 天 增 加 后 处 理 过 程 


在 iOSs 平 台 增 加 了 硬件 解码 器 的 支持 后 ， 并 没有 像 Android 平 台 一 
样 在 解码 器 端 进行 非常 大 的 改造 ， 而 是 在 演 染 端 进行 了 适 配 ， 改 动 之 
后 的 结构 如 图 11-3 所 示 。 
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图 11-3 中 ，VideoPlayerController 这 个 调度 器 会 携带 是 否 使 用 硬件 解 
码 姻 的 参数 来 初始 化 VideoOutput， 而 VideoOutput 中 有 一 个 属性 为 
frameCopier，VideoOutput 会 根据 是 否 ?使 用 硬件 解码 器 而 初 始 化 不 同类 
型 的 FrameCopier， 如 采 使 用 人 硬件 解码 颖 ， 束 实例 化 FastFrameCopier， 

如 果 没 有 使 用 硬件 解码 器 ， 束 实例 化 YUVEFrameCopier 。 当 
VideoPlayerC ontroller 从 视频 队列 中 取出 一 帧 视频 帧 区 给 VideoOutput 来 
泻 染 的 上 时候，VideoOutput 束 会 调用 前 面 实例 化 好 的 FrameCopier 并 将 
VideoFrame 类 型 的 视频 帧 以 化 为 一 个 纹理 ID ， 然 后 VideoOutput 束 会 绑 

定 到 displayFrameBuffer 上 ， 最 后 使 用 DirectPassRender 将 纹理 ID 演 染 到 
RenderBuffer 上 ， 世 就 是 泻 染 到 Layer 上 ， 从 而 让 用 户 可 以 看 到 。 在 上 面 
的 整个 泻 染 过 程 中 ， 我 们 要 引入 视频 后 处 理 效果 ， 最 好 在 FrameCopier 
之 后 插入 ， 再 将 FrameCopier 处 理 完 的 纹理 ID 交 给 新 定义 的 
VideoEffectFilter 玉 做 视频 特效 的 处 理 ， 处 理 结束 之 后 的 outputTexId 再 由 
原来 的 DirectPassRender 泻 染 到 Layer 上 ， 最 后 将 这 个 新 的 万 点 引入 
VideoOutput， 整 体 结构 如 图 11-4 所 示 。 
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图 11-4 


下 面 看 看 如 何 具体 构建 这 个 VideoEffectFilter。 首 先 提 供 一 个 
prepareRender 方 法 ， 完 成 OpenGL ES 相关 资源 的 初始 化 ， 要 求 
VideoOutput 在 OpenGL ES 线程 中 调用 这 个 方法 ， 代 码 如 下 : 


- (BOOL) prepareRender:(NSInteger) framewidth height:(NSInteger) frameHeight; 


_framewidth = framewWidth; 
_frameHeight = frameHeight; 
[self genoutputFrame]， 
_processor = new VideoEffectProcessor(); 
_processor->init(); 
int filterId = _processor->addFilter(0, 1000000 * 10 * 60 * 60, 
PLAYER_CONTRAST_FILTER_NAME); 
if(filterId >= 0){ 
_processor->invokeFilterOonReady(filterId); 


} 
return YES; 


其 中 ，genOutputFrame 方 法 是 生成 这 个 类 的 输出 纹理 ID 与 FBO。 至 
于 如 何 生成 纹理 ID 和 FBO， 并 把 这 个 纹理 ID 与 FBO 绑 定 起 来 ， 前 面 已 
ee 。 接 下 来 吏 是 真正 的 演 染 过 

， 代 伯 如 下 : 


- (void) renderwithwidth:(NSInteger) width height:(NSInteger) height 
position:(float)position'， 


glBindFramebuffer(GL FRAMEBUFFER, _FrameBuffer); 


self.processor->process(_inputTexId, position, _outputTextureID); 
glBindFramebuffer(GL_ FRAMEBUFFER, 0); 


最 后 整 古 释放 为 后 处 理 而 分 配 的 资源 ， 代 码 如 下 : 


- (void) releaseRender; 


if(_outputTextureID){ 
glDeleteTextures(1, & outputTextureID); 
_outputTextureID = 09; 


} 

if (_FrameBuffer) { 
glDeleteFramebuffers(1, & FrameBuffer); 
_FrameBuffer = 0; 


if (_processor) { 
_processor->dealloc(); 
delete _processor; 
_processor = NULL; 


至 此 ，VideoEffectFilter 类 就 构建 完毕 。 接 着 在 VideoOutput 类 中 将 
FrameCopier 输 出 给 VideoEffectFilter 作 为 输入 ， 而 把 VideoEffectFilter 输 
出 给 DirectPassRender 作 为 输入 ， 这 样 泻 染 过 程 就 集成 进 了 后 处 理 过 
程 。 当 然 ， 目 前 的 后 处 理 过 程 只 是 增强 对 比 度 的 一 个 效果 侨 ， 读 者 可 
以 将 去 块 滤波 效果 器 、 锯 化 效果 器 加 入 后 处 理 过 程 中 ， 这 样 会 让 整体 
播放 效果 有 很 大 提升 。 


另外， 针对 视频 源 是 网 络 流 的 特殊 处 理 ， 要 在 VideoDecoder 这 个 模 
块 下 给 FFmpeg 加 入 超时 回调 的 方法 ， 虽 然 在 本 地 磁盘 文件 的 读 取 过 程 
中 基本 不 会 出 现 超时 场景 ， 但 是 由 于 网 络 环境 过 于 复杂 ， 所 以 这 里 要 
加 入 超时 方法 。 在 VideoDecoder 类 中 ， 调 用 libavformat 模 块 的 打开 链接 
之 有 章 ， 可 给 AVFormatContext 设 置 超时 回调 函数 ， 代 码 如 下 : 


AVFormatContext *formatCtx = avformat_alloc context(); 
AVIOInterruptCB int_cb = {interrupt_callback, (__bridge void *)(self)}; 
formatctx->interrupt_callback = int_cb; 


其 中 interrupt_callback 静 态 方 法 的 回调 函数 实现 如 下 : 


static int interrupt_callback(void *ctx) 


__Uunsafe_unretained VideoDecoder *p = (__ bridge VideoDecoder *)ctx; 
const BOOL isInterrupted = [p detectIinterrupted]; 
return isInterrupted; 


} 


在 这 个 静态 函数 中 调用 detectInterrupted 方 法 的 实现 很 简单 ， 就 是 判 
断 当 前 时 间 崔 和 上 一 次 接收 到 数据 或 者 开始 连接 的 时 间 间 隔 ， 如 采 大 


于 超时 时 间 (比如 15s) ， 则 返回 YES， 代 表 已 经 超时 ， 否 则 返回 NO。 
知 返 回 YES， 则 代表 FFmpeg 中 阻塞 的 调用 (BE ve hme 、 
find_stream_info 等 ) 会 立即 返回 。 


是 对 网 络 流 的 适 配 为 更 改 缓冲 区 大 小 ， 由 于 在 本 地 播放 屁 中 设 
置 了 minBuffer 和 maxBuffer 作 为 控制 解码 线程 的 暂停 和 继续 的 条 件 ， 所 
以 之 前 定义 的 宏 如 下 : 


#define LOCAL_ MIN_BUFFERED_ DURATION 0.5 
#define LOCAL_MAX_BUFFERED_DURATION 1.0 


在 网 络 中 ， 为 了 避免 频繁 卡 顿 ， 还 要 将 控制 解码 线程 暂停 和 运行 
的 Buffer 长 度 进行 网 络 适 配 ， 新 增 宏 定义 如 下 : 


#define NETWORK_MIN_BUFFERED_DURATION 2.0 
#define NETWORK MAX_BUFFERED_DURATION 4.0 


在 拉 流 播放 右 中 束 是 使 用 以 上 两 个 宏 定 义 来 确定 AVSync 模 块 的 组 
冲 区 大 小 的 。 这 样 我 们 就 完成 了 由 本 地 播放 右 到 网 络 拉 流 播 放屁 的 适 
配 ， 读 着 可 以 参考 代码 仓库 中 的 源码 ， 以 便于 深入 理解 。 


11.3” 推 流 硕 的 构建 


本 下 构 建 主播 端 使 用 的 推 流 工 具 ， 当 然 ， 也 是 根据 前 面 章 中 的 
视频 录制 应 用 进行 改动 适 配 。 第 7 革 已 经 构建 了 一 个 视频 录制 器， 第 8 
章 和 第 9 草 为 这 个 视频 录制 器 增 添 了 首 频 效果 人 处理 器 和 视频 效果 处 理 
怖 。 对 于 一 个 录 播 应 用 来 说 ， 已 经 比较 完整 了 ， 但 是 对 于 直播 应 用 ， 
还 需要 做 一 些 适 配 工作 。 下 面 看 看 整体 结构 ， 如 图 11-5 所 示 。 
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从 整体 结构 来 看 ， 孙 播 和 直播 的 区 别 仅 在 于 最 终 Muxer (图 11-5 中 
的 Publisher) 模块 的 输出 不 同 ， 孙 播 是 向 本 地 磁盘 输出 ， 而 直播 是 向 网 
络 答 出 。 网 络 不 同 于 磁 副 的 是 ， 有 可 能 会 出 现 网 络 波 动 甚至 网 络 阻 
蹇 ， 所 以 要 针对 网 络 这 种 场景 做 对 应 的 适 配 工 作 。 


授 下 来 分 析 复 洒 的 网 络 环境 。 读 者 可 以 参考 图 11-6， 主 播 闹 第 一 步 
请 求 Http Server 的 开播 接口 后 会 得 到 域名 形式 的 推 流 地 址 ， 得 到 推 流 地 
址 后 ， 主 播 端 将 域名 解析 为 实际 的 IP 地 址 和 端口 号 ， 将 这 个 IP 地 址 经 过 
公有 网 络 的 各 级 路 由 如 和 交换 机 ， 最 终 找 到 实际 的 CDN 厂 商 广 点。 从 
获得 IP 地 址 开始 ， 影 响 整个 连接 通道 的 因素 有 很 多 ， 其 中 包括 主播 目 
己 的 出 口 网 络 、 中 间 的 链 路 状态 ， 以 及 CDN 商机 房 的 万 氮 链 路 情况 
等 。 影 响 连接 通道 的 因 系 很 多 ， 如 宁都 由 开发 者 目 己 来 解决 ， 显 然 不 
合理 。CDN 商 可 以 帮助 开发 者 解决 除 主 播 目 己 出 口 网 速 以 外 的 其 他 
部 分 ， 当 然 ， 这 也 是 CDN 商 存在 的 意义 。 但 是， 任何 一 家 CDNJ 商 
也 没有 100% 的 服务 保证 性 ， 并 且 ， 主 播 自己 的 出 口 网 络 可 能 是 小 运营 


商 ， 也 可 能 是 教育 网 络 ， 或 者 其 他 设备 占用 网 络 出 口 带宽 。 读 者 可 以 
通过 图 11-6 来 分 析 整 个 网 络 情况 。 
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综 上 所 述 ， 必 须 做 两 件 事 情 ， 才 可 以 将 视频 永 制 恬 转换 为 可 用 的 
主播 推 流 工具 :第 一 件 事情 是 如 采 网 络 超时 ， 要 通知 给 用 户 重 新 开播 
或 者 切换 网 络 环境 ， 第 二 件 事 情 是 当 网 络 出 现 拌 动 的 时 候 ， 我 们 要 做 
丢 帧 来 保证 整个 视频 直播 的 延迟 时 间 ， 以 维持 整 场 直播 的 交互 性 。 


先 来 看 第 一 件 事情 ， 即 网 络 超时 的 设置 。 超 时 设置 应 该 在 Muxer 模 
块 中 完成 ， 由 于 Muxer 模 块 使 用 的 是 FFmpeg 中 libavformat 模 块 的 封装 层 
和 协议 屋 ， 所 以 这 里 设置 的 超时 代码 与 我 们 在 拉 流 端 设置 的 超时 代码 
ss 并 在 打开 连接 之 前 ， 设 置 超 时 
Y 码 如 下 


AVFormatContext* oc; 
AVIOInterruptCB int_ cb = { interrupt_cb, this }; 
oc->interrupt_callback = int_cb,; 


静态 函数 interrupt_cb 的 实现 如 下 : 


int RecordingPublisher::interrupt_cb(void *ctx) { 
RecordingPublisher* publisher = (RecordingPublisher*) ctx; 
return publisher->detectTimeout(); 


这 个 静态 函数 interrupt_cb 中 调用 了 RecordingPublisher 类 中 的 
detectTimeout 方 法 ， 而 在 detectTimeout 方 法 中 会 针对 当前 时 间 惟 的 值 减 
去 上 一 次 发 送 数据 包 的 时 间 惟 的 值 进行 判断 : 如果 大 于 我 们 设 定 的 值 

(一 般 设置 为 5~15s) ， 就 返回 1， 代 表 超 时 ， 应 停止 发 送 数据 包 ; 否 
则 返回 0， 代 表 没 有 超时 ， 可 以 由 FFEmpeg 的 协议 层 继续 发 送 数据 包 。 在 
我 们 的 发 送 线程 中 ， 如 果 发 生 了 超时 ， 则 可 以 回调 客户 端 代 码 ， 让 容 
户 端 代码 给 用 户 弹 出 提示 ， 让 用 户 重 新 开播 或 者 切换 网 络 重新 开播 。 


下 面 来 看 网 络 出 现 拌 动 ， 或 者 在 弱 网 环境 下 的 丢 帆 策略。 读者 可 
以 先 参考 图 11-5， 图 中 有 两 种 队列 ， 分 别 是 编码 之 前 的 原始 数据 队列 和 
编码 之 后 的 编码 队列 。 弱 网 丢 帧 策略 常见 的 实现 有 两 种 ， 一 种 是 丢弃 
原始 数据 队列 中 未 编码 的 数据 帆 ， 男 外 一 种 是 丢弃 编码 队列 中 的 数据 
帧 。 这 两 种 实现 各 有 优 缺 点 ， 无 论 采 用 哪 种 实现 方式 都 以 “不 影响 音 视 
频 的 对 齐 ” 为 第 一 准则 。 接 下 来 分 析 两 种 丢 帧 案 略 的 优 缺 点 。 丢弃 原始 
数据 帧 的 丢 帧 策略 的 优点 是 ， 市 省 了 这 部 分 丢弃 帧 占用 编码 器 的 资 
源 ， 并 且 ， 由 于 是 丢弃 的 原始 数据 巾 ， 所 以 可 以 在 任意 时 刻 丢弃 任意 
的 音频 视频 帧 。 其 缺点 是 ， 增 加 了 直播 的 延迟 时 间 ， 因 为 要 保持 中 间 
队列 有 一 个 国 值 。 丢 弃 编 码 之 后 ， 数 据 帧 蛇 略 的 优点 生 减 少 了 直播 的 
延迟 时 间 ; 缺点 是 竺 弃 的 帧 日 日 请 耗 了 编码 郁 唤 源 ， 并 且 对 于 视频 
帧 ， 只 要 丢 帧 ， 就 丢掉 一 个 GOP 或 者 整个 GOP 的 后 半 部 分 ， 否 则 会 造 
成 观众 端 不 能 正常 观看 视频 。 


不 同 的 丢 帧 策略 应 用 在 不 同 的 直播 场景 中 ， 读 者 可 以 依据 目 己 产 
品 的 场景 来 选择 丢 帆 策略。 笔者 在 实际 开发 过 程 中 使 用 的 丢 帧 策略 
征 : 视频 丢弃 是 编码 之 后 的 视频 帧 ， 音 频 丢 弃 是 编码 之 前 的 原始 格式 
的 音频 帧 。 下 面 来 看 具体 的 实现 。 


对 编码 后 的 视频 帧 进行 丢 帧 ， 只 能 丢弃 一 个 完整 的 GOP (或 者 这 
个 GOP 后 半 部 分 非 参 考 视 频 帧 ) ， 或 者 这 个 GOP 中 剩余 的 视频 帧 ， 
为 P 帧 需要 参考 前 面 的 ] 帆 与 P 帧 才能 被 解码 。 对 于 B 帧 ， 需 要 双向 参考 

(直播 中 一 般 不 使 用 B 帧 ， 仅 用 I 怖 和 P 帧 ) 。 某 些 策 略 会 保留 GOP 中 的 
I 帆 ， 但 是 帕 是 GOP 中 容量 最 大 的 视频 巾 ， 而 某 些 策 略 古 丢弃 GOP 中 后 
半 部 分 的 P 帧 ， 直 到 这 个 GOP 中 仅 剩 余 I 帧 的 时 候 ， 再 把 I 帆 丢弃 。 第 二 
种 策略 是 一 种 可 取 的 策略 ， 但 是 为 了 商 单 考虑 ， 最 终 的 丢 帆 案 略 走 : 
要 丢弃 就 丢弃 整个 GOP 〈 如 有 果 这 个 GOP 已 经 发 送出 去 了 部 分 I 怖 和 P 
帧 ， 则 丢掉 这 个 GOP 中 剩余 的 视频 帧 ) 。 如 果 读 者 想 只 丢弃 GOP 中 后 
半 部 分 的 P 帧 策略 ， 在 后 续 代 码 中 进行 更 改 也 很 简单 。 


丢弃 了 视频 帧 后 ， 为 了 不 影响 音 画 的 对 齐 效 果 ， 也 应 该 丢弃 同等 
时 间 的 音频 数据 。 人 但是， 丢弃 的 那些 视频 帧 总 时 长 是 多 少 呢 ? 我 们 不 
可 以 只 通过 fps 计 算 这 些 视 频 帧 所 代表 的 时 长 ， 而 应 该 计算 出 视频 帧 每 
一 帧 持续 的 时 间 是 多 长 ， 必 须 精 确 计 算 。 因 为 fps 对 于 Camera 的 影响 是 
在 一 定时 间 范 围 内 ， 所 以 在 一 定时 间 内 连续 的 一 段 视频 帧 数目 是 可 以 
被 限定 在 这 个 fps 之 内 的 ， 但 是 ， 对 于 某 一 小 段 时 间 却 不 能 保证 满足 fps 
要 求 的 限制 。 那 如 何 计算 每 一 帧 视频 帧 的 精确 时 长 呢 ? 只 能 将 Camera 
采集 的 视频 帧 都 打上 一 个 相对 时 间 堆 ， 编 码 时 ， 要 在 编码 成 功 第 二 帧 
人 的 duration 信 息 ， 并 把 第 一 帧 放 入 编码 后 的 视频 队列 

， 代 人 如 下 : 


bool LivePacketPool: :pushVideopacketToQueue(LiveVideopacket* VideoPacket ) { 
If (NULL != VideoPacketQueue) { 
// 为 了 计算 当前 帧 的 Duration， 所 以 延迟 一 帧 放 入 Queue 中 
if(NULL != tempVideoPacket){ 
int packetDuration = videopacket->timeMi]ls - 
tempVideopacket->timeMills; 
tempVideoPacket->duration = packetDuration,; 
VideoPacketQueue->put(tempVideoPacket ) ， 


} 
tempVideoPacket = videopacket; 


return dropFrame; 


} 


其 中 ，tempVideoPacket 是 一 个 全 局 变量 ， 代 表 durtion 属 性 还 没有 
被 赂 值 的 视频 帧 ， 当 被 赋值 之 后 ， 它 会 被 加 入 视频 队列 中 。 接 下 来 看 
看 如 何 丢 弃 整 个 GOP 或 者 GOP 中 没有 发 送出 去 的 视频 帧 ， 并 计算 丢弃 
的 视频 帧 所 占用 的 总 时 长 。 在 丢弃 之 前 要 给 整个 队列 上 锁 ， 执 行 完 操 
作 之 后 解锁 ， 代 码 主体 如 下 ; 


int LiveVideoPacketQueue: :discardGOP() { 
int discardVideoFrameDuration = 0， 
LiveVideoPpacketList *pktList = 0) 
pthread_mutex_lock(&mLock); 
// 执行 丢 帧 操作 
pthread_mutex_unlock(&mLock); 
return discardVideoFrameDuration; 


执行 丢 帧 操作 的 逻辑 也 比较 简单 ， 会 先 判断 当前 第 一 个 元 素 是 否 
是 关键 帧 ， 如 果 是 关键 帧 ， 则 将 布尔 型 变量 isFirstFrameIDR 设 置 为 
true， 代 码 如 下 : 


bool isFirstFrameIDR = false; 
if(mFirst){ 
LiveVideoPacket * pkt = mFirst->pkt; 
if (pkt) { 
int nalu_type = pkt->getNALUType(); 
if (nalu_type == H264_NALU_TYPE_IDR_PICTURE){ 
isFirstFrameIDR = true; 
} 


} 
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然后 循环 队列 中 所 有 的 视频 巾 ， 并 判断 视频 帧 类 型 。 如 来 帆 类 型 
不 是 关键 帧 ， 则 丢弃 这 一 帆 ， 并 把 这 一 帧 的 时 间 长 度 加 到 丢弃 帧 时 间 
长 度 的 变量 上 ;， 如 果 是 关键 帧 ， 就 先 判 断 isFirstFrameID 变 量 是 否 为 
true， 如 果 是 true， 则 移 置 为 false， 然 后 丢弃 这 一 帧 并 将 帧 长 度 加 到 丢 
弃 帧 时 间 长 度 的 变量 上 ; 如 果 是 false， 则 代表 已 经 删除 了 一 个 GOP， 
应 该 退出 。 代 码 如 下 : 


LiveVideoPpacketList *pktList = 0; 
for (;;) { 
if (mAbortRequest) { 
discardVideoFrameDuration = 0; 
break; 


pktList = mFirst,; 
if (pktList) { 
LiveVideopacket * pkt = pktList->pkt,; 
int nalu_type = pkt->getNALUType(); 
if (nalu_type == H264_NALU_TYPE_IDR_PICTURE){ 
if(isFirstFrameIDR){ 
isFirstFrameIDR = false; 
discardVideoFrameDuration += pkt->duration; 
relesse(pktList); 
continue; 
} else { 
break; 


} 

} else if (nalu_type == H264_NALU_TYPE_NON_IDR_PICTURE) { 
discardVideoFrameDuration += pkt->duration; 
relesse(pktList); 


上 壕 方 法 的 调用 端 ， 束 是 指 当 编码 之 后 的 视频 帧 要 放 入 队列 中 之 
前 ， 要 判断 当前 视频 队列 的 大 小 和 设置 Threshold ( 病 值 ) 的 关系 ， 如 
果 超 过 靖 值 ， 则 说 明 当 前 网 络 发 生 持 动 或 者 处 于 弱 网 环境 下 ， 应 执行 
丢 帧 逻辑 。 待 丢弃 完 一 个 GOP 之 后 ， 再 以 这 个 丢弃 掉 视 频 帧 的 时 间 长 
度 参 数 去 丢弃 音频 数据 。 因 为 去 弃 的 音频 帧 是 原始 数据 帧 ， 而 对 于 


PCM 队 列 中 每 个 元 素 都 是 固定 长 度 (暂时 设置 为 40ms) 的 一 个 buffer， 
所 以 代码 如 下 : 


bool LivePacketPool: :discardAudiopacket() { 

bool ret = false; 

LiveAudiopPacket *tempAudioPacket = NULL,; 

int resultCode = audiopacketQueue->get(&tempAudioPpacket, true); 

if (resultCode > 0) { 
delete tempAudiopacket; 
tempAudioPacket = NULL; 
pthread_rwlock_wrlock(&mRwlock); 
totalDiscardVideoPacketDuration -= (40.0 * 1000.0f); 
pthread_rwlock_unlock(&mRwlock ) ， 
ret = true; 


return ret; 


上 述 函 数 的 实现 比较 简单 ， 调 用 的 地 方丈 在 原来 的 音频 编码 适 配 
器 (AudioEncodeAdapter) 的 getAudioPacket 方 法 中 。 至 此 ， 完 成 了 丢 
帧 策略 的 实现 ， 主 播 端 的 推 流 工具 由 视频 录制 器 改造 而 成 。 


11.4 第 三 方 云 服 务 介 绍 


在 开发 音 视频 的 App 的 过 程 中 ， 不 得 不 和 第 三 方 的 云 服 务 打 区 
道 ， 因 为 这 些 CDN 商 对 于 视频 的 市 宽 可 以 提供 更 便宜 的 价格 ( 相 较 
于 IDC 的 市 宽 ) ， 而 对 于 视频 的 访问 速度 也 可 以 提供 更 快速 的 访问 通 
道 。 无 论 是 在 永 播 场景 下 还 是 在 直播 场景 下 ， 使 用 CDN 商都 要 优 于 
目 己 搭 建 一 套 存 储 服 务 与 流 媒 体 服 务 。 


这 里 首先 解释 一 下 CDN，CDN 的 全 称 是 Content Delivery 

Network， 其 基本 思路 是 尽 可 能 避 开 互联 网 上 有 可 能 影响 数据 传输 速度 
和 稳定 性 的 瓶颈 与 环 丰 ， 使 内 容 传输 得 更 快 、 更 稳定 。 一 般 实 现 手 段 
是 在 各 处 放置 下 点 服务 锅 ， 玫 点 服务 咒 呈 树 形 结构 ， 用 户 能 直接 访问 
到 的 是 边缘 (叶子 ) 市 点 服务 器 ， 如 果 边 缘 节 点 服务 器 没有 用 户 所 要 
访问 的 资源 ， 就 问 它 的 上 一 级 节点 服务 器 获取 数据 ， 如 果 还 没有 (不 
同 广 商 提供 的 级 数 不 同 ， 就 向 开 发 者 配置 的 文件 实际 地 址 ( 回 源 地 
址 ) 获取 ; 如果 边缘 节点 有 用 户 所 要 访问 的 资源 ， 束 直接 给 用 户 ， 并 
在 用 户 选 择 边 缘 节 点 的 策略 上 ，CDN 商会 按照 负载 均衡 、 链 路 调度 
等 服务 安排 用 户 瓯 近 获 取 资 源 ， 降 低 网 络 拥塞 ， 提 高 用 户 访问 的 啊 应 
速度 。 而 CDN 去 源 站 服务 需 获 取 源 文件 的 这 个 过 程 称 为 回 源 ， 对 于 流 
媒体 资源 ， 回 源 率 越 小 越 好 ， 否 则 源 站 服务 器 的 VO 将 不 堪 重 负 。 在 日 
常 工作 中 ， 不 只 最 终 用 户 的 视频 作品 会 存储 在 CDN 上 ， 甚 至 我 们 的 图 
睛 文件 、 音 频 文 件 ， 甚 至 前 端 工程 师 的 js 文件 和 css 文 件 都 可 以 存储 在 
CDN 上 。 当然 ， 在 隶 播 场景 下 ， 用 户 视 频 作品 的 存储 以 及 访问 ， 开 发 
者 可 能 会 用 到 某 些 CDNJ 商 。 最 终 开发 者 或 者 公司 和 CDNJ 商 一 般 会 
按照 几 部 分 服务 计算 资费 ， 最 主要 的 就 是 网 络 带宽 的 费用 ， 这 部 分 的 
费用 要 比 使 用 我 们 目 己 机 房 的 带宽 费用 便宜 很 多 ， 至 于 存储 、 转 码 等 
服务 ， 则 依据 开发 者 自己 的 使 用 情况 进行 收费 。 


在 直播 过 程 中 ， 第 三 方 的 CDN 商 又 可 以 给 我 们 提供 哪些 服务 
呢 ? 笔者 根据 目 己 接触 的 CDN 商 ， 总 结 了 以 下 几 个 主要 服务 。 


.直播 转发 服务 : 提供 快速 、 稳 定 的 直播 转发 服务 ， 接 受 主播 端 推 
上 来 的 视频 流 ， 并 可 以 转发 给 所 有 的 订阅 者 (观众 端 ) ， 一 般 CDN 厂 
0 可 以 让 观众 端 以 最 快 的 速度 
| 视频 。 


.直播 存档 服务 : 在 整个 直播 过 程 中 可 以 存储 视频 ， 便 于 客户 的 产 
品 可 以 沉淀 视频 内 容 ， 后 续 可 以 继续 观看 这 个 视频 。 


.直播 转 码 服务 : 提供 多 协议 、 多 分 辨 率 、 多 码 率 的 多 路 转 码 服 
务 ， 产 品 的 多 个 终端 可 能 需求 的 拉 流 协议 是 不 同 的 ， 比 如 网 页 需要 
HLS 协 议 ， 而 客户 端 需 要 HDL 协议 ， 或 者 在 一 些 大 型 直播 以 及 一 些 专 
有 的 体育 赛事 直播 中 需要 给 用 户 提供 超 清 、 高 请、 标清 等 多 路 视频 


\ 疡 
;也 。 


-视频 抽 帧 服务 : 可 以 提供 在 可 配置 时 间 内 (1~10s) 抽取 一 帧 图 
像 进 行 存储 ， 可 以 给 客户 提供 内 容 审核 、 实 时 预 咒 等 功能 。 


- 推 滨 、 拉 流 客户 端 SDK: 可 以 提供 推 流 端 和 拉 流 端的 视频 基础 服 
务 ， 可 以 让 客户 花 更 多 的 时 间 在 目 己 的 产品 和 社交 功能 上 。 缺 点 就 是 
当 与 系统 中 的 动画 以 及 其 他 页 面 跳 转 等 细 市 出 现 不 兼容 性 问题 时 会 比 
较 磋 烦 。 因 此 ， 是 否 末 用 SDK， 读 者 可 以 根据 目 己 的 业务 场景 以 及 产 
品 阶段 进行 选择 。 


除了 上 壕 基础 的 服务 外 ， 某 些 CDN 广 商 也 会 提供 其 他 可 编程 接 
和 
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直播 转发 服务 : 在 直播 过 程 中 作为 中 转 服 务 右 ， 开 发 者 的 Http 服 
务 万 会 分 配 这 个 中 间 地 址 ， 并 发 送 给 推 流 哨 ， 推 流 端 将 视频 流 推送 到 
这 个 中 转 服 务 器 上 ， 而 观众 端 也 会 到 中 转 服务 器 (与 推 流 的 服务 器 不 
一 定 相 同 ，CDN 商会 提供 最 优 链 路 解决 方案 ) 上 获取 直播 流 。 另 
外 ， 在 自己 的 Http 服 务 器 返回 推 流 地 址 的 时 候 ， 可 以 加 入 防盗 链 机 制 
( 推 流 地 址 会 使 用 时 间 戳 加密 后 进行 验证 ) 增加 安全 性 。 


.直播 存档 服务 : 在 直播 过 程 中 ， 我 们 的 App 会 将 主播 端 直播 出 来 
的 视频 实时 转 码 为 一 个 MP4 文 件 存储 到 CDN 上 ， 以 便 后 续 提 供 视频 回 


放 服 务 。 
-直播 转 码 服务 ， 使 用 这 个 服务 将 视频 实时 转 码 为 HLS 的 视频 流 ， 


供 网 页 播放 服务 使 用 ， 一 般 情 况 下 不 会 使 用 到 多 分 辨 率 以 及 多 码 率 的 
服务 ， 如 采 有 一 些 特殊 活动 ， 可 以 提前 申请 这 样 的 服务 。 


-视频 抽 帧 服务 : 使 用 CDN) 商 提供 的 这 个 服务 ， 每 隔 5s 获 取 一 由 
图 像 进行 展示 ， 以 供 内 容 审 核 人 员 针 对 一 些 违 规 视频 进行 处 理 。 


合理 使 用 CDN 厂 商 提供 给 我 们 的 服务 ， 可 以 提升 开发 效率 ， 缩 短 
开发 周期 ， 可 以 把 我 们 有 限 的 精力 投入 到 产品 的 打磨 上 ， 让 我 们 在 目 
己 的 细 分 市 场 或 者 垂直 领域 快速 地 进行 迭代 。 但 是 使 用 CDN 商 也 有 
一 定 的 束 问 ， 比 如 CDN 丙 提供 了 服务 的 稳定 性 ， 如 采 这 家 CDN) 商 
死 掉 了 ， 那 很 有 可 能 导致 我 们 的 产品 处 于 不 可 用 状态 ， 所 以 在 实际 的 
开发 中 ， 要 有 多 家 CDNJ 商 备 选 ， 可 以 进行 热切 换 ， 最 好 的 方案 束 是 
我 们 目 己 再 搭建 一 僚 系 统 ， 以 便 在 所 有 第 三 方 服务 部 挂 掉 的 时 候 ， 也 
可 以 保证 产品 的 可 用 性 。 


11.5 礼物 系统 的 实现 


对 于 一 个 直播 App， 礼 物 展示 系统 的 实现 是 非常 重要 的 ， 它 实现 
的 好 坏 直接 影响 整个 产品 的 收入 情况 。 因 此 ， 我 们 在 考虑 礼物 系统 实 
现 的 时 候 ， 应 该 思考 以 下 几 个 方面 的 问题 。 


礼物 系统 的 性 能 怎么 样 。 
礼物 系统 将 来 的 扩展 性 如 何 。 


: 当 开 发 一 个 新 动画 的 时 候 ， 开 发 成 本 是 多 少 ， 其 中 包括 开发 时 间 
多 长 ， 参 与 人 员 由 哪儿 部 分 组 成 等 。 


下 面 列 举 几 种 常用 的 实现 手段 。 


第 一 种 手段 是 使 用 各 个 平台 目 身 提供 的 API 来 实现 动画 ， 比 如 iOS 
平台 使 用 CALayer 动 男 SpriteKit 来 实现 ，Android 平 台 使 用 自己 的 
Canvas 来 实现 。 针 对 这 种 实现 手段 ， 我 们 来 分 析 以 上 几 个 问题 ， 礼 物 
系统 的 性 能 在 iOS 上 没 问 题 ， 在 Android 上 可 能 要 差 一 些 ， 将 来 的 扩展 
性 并 不 会 太 好 ， 将 来 可 能 会 出 现 复 杂 的 动画 ， 比 如 类 似 碰撞 检测 的 动 
画 束 很 难 实现 ， 当 开发 一 个 新 动画 的 上 时候， 开发 成 本 比较 大 ， 因 为 需 
要 两 个 客户 端 开 发 人 员 和 设计 人 员 共 同 开 发 。 对 于 设计 人 员 输 出 的 图 
人 需要 不 断 地 和 两 端 开 发 人 员 进 行 调试 ， 以 及 适 


第 二 种 手段 是 使 用 OpenGL ES 来 开发 一 套 目 己 的 动画 引擎 ， 前 期 
开发 成 本 很 高 ， 需 要 兼容 粒子 系统 (使 用 Particle Designer 设 计 的 配置 
文件 可 以 直接 运行 到 系统 中 ) ， 甚 至 能 兼容 设计 人 员 使 用 AE (After 
Effect， 是 Adobe 的 一 蒜 专 门 设计 视频 特效 的 网 形 处 理 软件 ) 产 出 的 动 
男 特效 。 礼 物 系 统 的 性 能 没有 问题 ， 将 来 的 扩展 性 主要 看 最 初 目 己 的 
设计 ， 但 是 遇 到 特殊 情况 ， 比 如 需要 路 径 和 伴 撞 检测 的 场景 很 难 实 
现 ， 对 于 开发 成 本 ， 由 于 是 路 平台 的 系统 ， 需 要 的 开发 人 员 不 多 ， 但 
是 需要 精通 OpenGL ES， 也 就 是 说 ， 对 开发 人 员 的 要 求 比较 高 ， 而 与 
设计 人 员 的 沟通 成 本 比较 小 。 


第 三 种 手段 是 使 用 现 有 的 一 些 游戏 引 敬 来 实现 动画 ， 比 如 
Cocos2dX、1libGDX 等 。 这 里 以 最 为 流行 的 Cocos2dX 为 例 来 看 上 面 提 
到 的 几 个 问题 ，Cocos2dX 使 用 OpenGL ES 作为 绘制 引 警 ， 所 以 效率 方 
面 没 有 问题 。Cocos2dXx 是 一 款 游戏 引 警 ， 在 扩展 性 方面 肯定 是 最 强 
的 ， 不 论 是 碰撞 检测 ， 还 是 其 他 场景 都 比较 容易 实现 ， 至 于 开发 成 
本 ， 由 于 是 使 用 C++ 语言 开发 的 ， 所 以 比较 简单 ， 但 是 需要 开发 人 员 
学 习 Cocos2dX 的 API， 因 为 这 是 一 项 跨 平 台 的 技术 ， 所 以 整体 的 开发 
成 本 并 不 高 。 缺 点 就 是 引入 Cocos2dX 引 擎 会 增加 App 的 体积 。 


其 他 手段 ， 如 Airbnb 的 工程 师 发 布 的 Lottie 项 目 ， 这 个 项 目 可 更 简 
单 地 为 原生 项 目 添 加 动画 效果 ， 直 接 支 持 AE 的 动画 特效 ， 并 支持 动画 
的 热 更 新 操作 ， 可 以 有 效 减 小 App 的 体积 ， 且 支持 Android、iOS 等 平 
由 于 这 些 技术 业界 使 用 的 并 不 是 太 多 ， 所 以 笔者 不 在 本 书 
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下 面 将 介绍 Cocos2dX 项 目 在 Android 和 iOS 设 备 上 的 运行 原理 ， 然 
后 介绍 Cocos2dX 的 关键 API， 最 后 利用 这 些 API 实 现 一 个 动画 。 


11.5.1 Cocos2dX 项 目的 运行 原理 


如 何 构建 项 目 这 里 就 不 做 过 多 介绍 了 ， 大 家 可 以 根据 官方 文档 进 
行 构建 。 本 节 重 点 介绍 Cocos2dX 项 目 在 Android 平 台 和 iOS 平 台 上 如 何 
运行 ， 如 果 读 者 面前 有 开发 环境 ， 可 以 打开 代码 仓库 中 的 Android 工 程 
或 者 iO0S 工 程 跟 随笔 者 进行 分 析 。 


1.Android 项 目的 运行 


下 面 来 看 Android 工 程 ， 这 里 要 使 用 到 Cocos2dX 项 目 提供 的 jar 包 
以 及 我 们 自己 编写 的 so 库 。 首 移 配 置 jar 包 ， 可 在 build.gradle 中 进行 ， 
至 于 so 库 ， 可 和 暂且 假设 已 经 编译 出 来 。 前 面 笔者 提 到 过 Cocos2dX 也 是 
基于 OpenGL ES 引擎 绘制 的 ， 所 以 在 Android 上 需要 使 用 
GLSurfaceView 作 为 Cocos2dX 的 绘制 目标 ， 而 jar 包 里 提供 的 类 
Cocos2dxGLSurfaceView 束 是 我 们 要 使 用 的 GLSurfaceView。 移 创建 这 
个 View 对 和 象 : 


Cocos2dxGLSurfaceView glSurfaceView = new Cocos2dxGLSurfaceView(this); 


然后 给 这 个 GLSurfaceView 设 置 EGL 的 显示 属性 ， 并 设置 Renderer 
为 jar 包 里 提供 的 专 有 类 Cocos2dxRenderer: 


mGLSurfaceView.setCocos2dxRenderer(new Cocos2dxRenderer()); 


再 来 看 Cocos2dxRenderer 内 部 具体 的 关键 生命 周期 方法 
onSurfaceCreated， 该 方法 里 的 第 一 行 代码 就 调用 了 nativeInit 方 法 ， 而 
Renderer 的 nativeInit 方 法 最 终 会 调用 Native 层 ，Cocos2dxRenderer 类 对 
应 的 Native 层 的 源码 文件 是 javaactivity-android.cpp， 虽 然 不 同 版 本 的 实 
现 不 同 ， 但 不 论 是 在 JNI_OnLoad 方 法 中 ， 还 是 在 nativeInit 方 法 中 ， 都 
可 以 调用 到 以 下 这 个 方法 : 


cocos_android app_init 


这 个 方法 会 和 so 库 中 的 main.cpp 文 件 的 实现 连接 起 来 ， 代 码 如 


void cocos_android app_init (JNIEnv* env, jobject thiz)f{ 
LOGD( "cocos_android app_init"); 
AppDelegate *pAppDelegate = new AppDelegate( )， 

} 


这 样 就 可 以 让 类 Application 的 单 例 引 用 指 问 我 们 上 自己 写 的 
APPDelegate (继承 自 Application 类 ) 了 。 而 在 接 下 来 的 nativeInit 方 法 
中 ， 会 给 Director 设 置 GLView， 代 码 如 下 : 


director->setOpenGLView(glview); 


GLView 是 一 个 接口 ，Cocos2dX 在 Android 平 台 和 iOS 平 台 有 各 自 的 
实现 ， 分 别 完成 一 些 平台 相关 的 操作 ， 比 如 viewPort、getSize、 
SwapBuffer 等 操作 ， 面 向 接口 编程 的 好 处 显而易见 ， 正 是 因为 这 种 设 
计 才 可 以 让 Cocos2dX 可 以 跨 平 台 运行 。 在 nativeInit 方 法 中 有 一 个 最 天 
键 的 调用 ， 它 能 让 整个 引擎 运行 起 来 ， 方 法 如 下 : 


cocos2d: :Application': :getInstance()->run() 


上 述 流程 会 让 整个 引擎 委托 给 我 们 书写 的 类 来 完成 操作 。 而 在 
APPDelegate 中 是 如 何 实现 的 ， 会 在 11.5.2 节 继续 讲解 。 在 Renderer 的 生 
命 周 期 方法 onDrawFrame 中 会 调用 到 nativeRender 方 法 ， 而 
nativeRenderer 方 法 也 会 调用 到 Native 层 ， 在 Native 层 中 可 以 看 到 如 下 调 
用 : 


cocos2d: :Director::getIinstance()->mainLoop(); 


mainLoop 方 法 是 Director 类 中 要 绘制 内 部 所 有 场景 (Scene) 的 地 
方 ， 这 样 就 可 以 不 断 地 绘制 整个 动画 。 


综 上 所 述 ， 可 依靠 GLSurfaceView 内 部 的 渲染 线程 调用 Renderer 的 
onDrawFrame 方 法 将 整个 演 染 过 程 跑 起 来 。 至 于 上 面 提 到 的 Cocos2dX 


的 入 口 类 Director 以 及 关键 API， 后 续 章 节 会 继续 介绍 。 
2.iOS 项 目的 运行 
运行 iOS 项 目 之 后 ， 可 以 先 找到 源码 文件 main.m， 这 个 文件 是 整 


个 App 的 入 口 类 ， 这 里 可 以 将 AppController 这 个 类 作为 整个 App 的 生命 
周期 方法 的 代理 类 。 在 这 个 类 中 ， 首 先 声 明了 一 个 变量 ， 如 下 : 


static AppDelegate s_sharedApplication,; 


声明 这 个 变量 的 目的 是 让 Cocos2dX 的 Application 入 口交 由 
APPDelegate 这 个 类 ， 由 于 Application 是 单 例 模式 设计 的 ， 而 
APPDelegate 又 继承 自 Application 类 ， 从 而 达到 了 委托 给 APPDelegate 这 
个 类 的 目的 。 下 面 看 这 个 类 中 的 启动 方法 : 


- (BOOL)application: (UIApplication *)application didFinishLaunchingwithOptions: 
(NSDictionary *)launchoptions,; 


在 这 个 启动 的 方法 中 ， 首 先 取出 Application， 然 后 设置 OpenGL 上 
下 文 的 属性 ， 接 下 来 利用 提供 的 CCEAGLView 构 造 一 个 UIView， 并 将 
这 个 View 以 subView 的 方式 加 入 ViewController 中 ， 最 终 给 Director 设 置 
这 个 构造 出 来 的 GLView， 以 及 调用 Application 的 run 方 法 ， 代 码 如 下 : 


cocos2d: :GLView *glview = cocos2d::GLViewImpl::createWithEAGLView(eaglView); 
cocos2d: :Director::getInstance()->setOpenGLView(glview); 
cocos2d: :Application: :getIinstance()->run(); 


run 方 法 会 调用 到 Cocos2dX 引 警 定 义 在 AppDelegate 中 的 生命 周期 
方法 ， 然 后 在 源码 中 可 以 发 现 run 方 法 最 终 会 调用 Director 的 


StartMainLoop: 


[[CCDirectorcCaller sharedDirectorCaller] startMainLoop]; 


run 方 法 还 会 使 用 CADisplayLink 来 做 一 个 定时 器 ， 按 照 设 置 的 fps 
信息 调用 OpenGL ES 的 泻 染 操 作 ， 而 关键 的 OpenGL ES 操作 都 在 
CCEAGLView 中 实现 ， 在 Director 中 的 关键 操作 (比如 SwapBuffer) 则 


口 


而 让 整个 Cocos2dX 引 警 实现 了 在 iOS 平 台 的 运行 。 相 较 于 Android 平 


会 委托 给 GLView 来 完成 ， 这 样 它 们 就 又 到 达 了 CCEAGLView 类 中 ， 从 
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人 台 ，iOS 平 台 的 运行 原理 比较 简单 ， 大 家 可 以 理解 Cocos2dX 古 如 何 通 

过 面向 接口 编程 达到 实现 跨 平台 特性 的 。 


11.5.2 ”关键 APIT 详 解 


本 节 将 介绍 Cocos2dXx 里 的 关键 API。 不 过 ， 这 里 不 再 区 分 平台 ， 

而 是 使 用 一 套 跨 平台 的 代码 。 对 于 Cocos2dX3 引 | 警 来 讲 ， 最 重要 的 是 
Director 类 ， 就 像 它 的 名 字 一 样 ， 它 是 整个 游戏 或 者 动画 的 导演 ， 控 制 
着 内 部 所 有 场景 (Scene) 的 泻 染 ， 可 以 进行 显示 、 切 换 等 操作 。 对 于 
场景 ， 大 家 可 以 将 其 理解 为 一 个 界面 ， 类 似 于 Android 里 的 Activity， 
或 者 OS 里 的 ViewController， 在 这 个 场景 中 可 以 有 很 多 图 层 

(Layer) ， 每 一 个 图 层 就 类 似 于 Photoshop 中 的 图 层 ， 所 有 上 述 这 些 
对 和 象 共 同 构成 了 Cocos2dX5 引 人 警 。 


接 下 来 读者 可 以 看 到 在 上 面 提 到 的 AppDelegate， 这 个 
AppDelegate 束 是 Cocos2dX 引 警 委 托 给 开发 者 的 程序 入 口 ， 
AppDelegate 也 必须 继承 自 cocos2d: : Application， 并 重 写 这 里 的 生命 
周期 方法 ， 如 下 : 

: 当 应 用 程序 局 动 的 时 候 会 调用 方法 
applicationDidFinishLaunching ° 

当 应 用 程序 进入 后 台 的 时 候 会 调用 方法 
applicationDidEnterBackground ° 

当 应 用 程序 回 到 前 台 的 时 候 会 调用 方法 
applicationWillEnterForeground ° 

由 于 iOS 平 台 不 允许 App 进 入 后 台 之 后 还 使 用 OpenGL ES 泻 染 ， 并 

人 
口 


且 进 入 后 台 之 后 也 没 必 要 为 用 尸 展 示 动 画 ， 所 以 当 应 用 程序 进入 后 
的 时 候 ， 应 该 调用 集 止 动画 的 方法 : 


Director::getInstance()->stopAnimation(); 


调用 了 上 上述 方法 之 后 ，Director 中 的 泻 染 行为 束 不 会 再 触发 ， 内 部 
实现 会 把 invalid 的 变量 设置 为 tue。 在 mainLoop 方 法 中 ， 待 判断 出 这 个 
变量 是 true 之 后 ，Director 束 不 会 去 洽 染 内 部 的 场景 了 。 而 当 App 叉 重 
狐 回 到 前 台 的 时 候 ， 则 应 该 继续 启用 动画 : 


Director::getInstance()->startAnimation(); 


这 个 方法 的 内 部 实现 又 会 把 invalid 变 量 设置 为 false， 而 在 Director 
内 部 的 mainLoop， 束 会 继续 演 染 内 部 的 场景 ， 用 户 整 可 以 继续 看 到 动 
男 了 。 接 下 来 看 看 最 重要 的 生命 周期 方法 
applicationDidFinishLaunching， 这 个 方法 是 Cocos2dX 引 擎 留 给 开发 者 
设置 参数 与 绘制 操作 等 程序 入 口 的 地 方 。 先 来 看 设置 Director 的 代码 部 


分 : 


auto director = Director::getIinstance(); 
director->setDisplaystats(false); 
director->setAnimationInterval(1.0 / 45); 
director->setCclearColor(Color4F(0, 0, ©0, 0)); 


首先 获得 Director 的 实例 ， 然 后 将 显示 印 $ 状 态 的 开关 关闭 ， 接 下 
来 设置 ps， 这 里 设置 为 一 秒 钟 45 帧 的 帧 率 ， 最 后 一 行 代码 设置 为 背景 
颜色 ， 其 实 这 个 颜色 是 每 次 绘制 最 开始 使 用 glClearColor 时 所 用 的 颜 
色 。 由 于 设备 分 辨 京 具 有 多 样 性 ， 设 计 人 员 在 调整 动画 效果 或 者 游戏 
效果 的 时 候 也 只 会 设计 一 个 标准 分 辨 率 ， 因 此 ， 适 配 不 同 分 辨 率 的 机 
器 在 Cocos2dX 中 的 实现 如 下 : 


static cocos2d: :Size designResolutionSize = cocos2d::Size(480, 320); 
static cocos2d::Size smallResolutionSize = cocos2d::Size(480, 320); 
static cocos2d::Size mediumResolutionSize = cocos2d::Size(1024, 768); 
auto glview = director->getOpenGLView!( ) ， 
if(!glview) { 
glview = GLViewImpl::create("changba-cocos"); 
director->setOpenGLView(glview); 


glview->setDesignResolutionSize(designResolutionSize.width, 
designResolutionSize.height, ResolutionPolicy::NO_BORDER); 
Size frameSize = glview->getFrameSize(); 
If (frameSize.height > smallResolutionSize.height)t{ 
director->setContentScaleFactor (MIN(mediumResolutionSize.height/ 
designResolutionSize.height, mediumResolutionSize.width/ 
designResolutionSize.width)); 
}elsef{ 
director->setContentScaleFactor (MIN(smallResolutionSize.height/ 
designResolutionSize.height, smallResolutionSize.width/ 
designResolutionSize.width)); 


从 以 上 代码 可 以 看 到 ， 首 先 会 取出 Director 的 绘制 目标 GLView， 
然后 会 给 这 个 GLView 设 置 进 入 原始 的 分 辨 紊 ， 并 对 比 GLView 的 大 
小 ， 给 Director 设 置 一 个 Scale 系 数 ， 而 Cocos2dX 在 实际 绘制 过 程 中 会 
使 用 Scale 系 数 进 井 行 屏 幕 分 辨 率 的 适 配 。 


完成 Director 的 设置 后 ， 接 下 来 束 来 实例 化 一 个 场景 ， 让 Director 
来 显示 这 个 场景 。 


auto Scene = AnimatinScene: :create() 
director->runwithScene(scene); 


可 以 看 到 这 里 所 有 的 类 型 都 是 auto 类 型 的 ， 代 表 目 动 回收 对 象 ， 


,一 /一 


而 最 后 一 行 代 码 是 告诉 Director 运 行 HellWord 这 个 场景 。 


对 AppDelegate 的 介绍 就 到 这 里 。 下 面 来 看 HellowWord 这 个 场景 是 
如 何 构建 的 。 要 创 建 一 个 场景 ， 忆 必须 继承 自 cocos2d: : Scene， 然 后 
重 写 init 方 法 ， 因 为 Scene 里 默认 的 create 方 法 是 调用 了 init 方 法 ， 所 以 只 
有 重 写 init 方 法 才 可 以 在 场景 的 创建 过 程 中 完成 我 们 的 逻辑 。 


bool AnimationScene: :init() { 
if (!Scene::init()) { 
return false,; 


auto keyBoardLayer = KeyBoardLayer::create(); 
addChild(keyBoardLayer, 1, 1); 
return true; 


第 一 行 代码 调用 了 父 类 的 init 方 法 ， 然 后 创建 KeyBoardLayer， 并 
调用 addChild 方 法 将 Layer 加 入 我 们 的 场景 中 ， 而 KeyBoardLayer 殉 是 设 
置 的 一 个 康 单 Layer， 上 面 可 以 增加 动画 按钮 与 退出 按钮 ， 点 击 不 同 的 
按钮 有 不 同 的 行为 。 


接 下 来 看 KeyBoardLayer 的 内 部 实现 。 首 移 Layer 要 继承 目 
cocos2d: : Layer， 然 后 要 重 写 init 方 法 ， 在 init 方 法 中 需要 调用 父 类 的 
初始 化 方法 ， 代 码 如 下 : 


bool 2 :init() { 
// 1: 调 的 初始 化 
if es :Init()){ 


return false， 


Size visibleSize = Director::getIinstance()->getVisibleSize(); 
Vec2 origin = Director::getInstance()->getVisibleOrigin(); 

// 2: 增 加 关闭 按钮 
// 3: 增 加 动画 按钮 


可 以 看 到 以 上 代码 分 为 了 三 部 分 ， 第 一 部 分 是 调用 父 类 的 初始 化 
方法 ， 然 后 取出 屏幕 的 宽度 与 起 始点 位 置 ， 便 于 后 续 添加 按钮 来 计算 
位 置 ， 第 二 部 分 是 给 Layer 增 加 一 个 关闭 按钮 ， 代 码 如 下 : 


auto closeItem = MenuItemImage::create("CloseNormal.png", "CloseSelected.png", 
CC_CALLBACK_1(KeyBoardLayer: :menuCloseCallback, this)); 

closeItem->setPosition(Vec2(origin.x + visibleSize.width - 
closeItem->getContentSize().width/2 ， 
origin,y + closeItem->getContentSize().height/2)); 

auto menu = Menu::create(closeItem, NULL); 

menu->setPosition(Vec2: :ZERO); 

this->addchild(menu, 1); 


从 以 上 代码 可 以 看 到 ， 这 里 选择 了 两 张 图 片 分 别 作 为 这 个 亲 单 项 
的 普通 状态 和 选中 状态 ， 点 击 的 监听 方法 是 本 类 的 menuCloseCallback 
方法 ， 然 后 设置 位 置 ， 并 且 加 入 到 创建 的 Menu 里 去 ， 最 终 将 这 个 
Menu 加 入 到 Layer 中 ， 而 menuCloseCallback 方 法 的 实现 如 下 : 


void KeyboardLayer: :menuCloseCallback(Ref* pSender) { 
Director::getInstance()->end(); 
} 


以 上 代码 直接 调用 Director 的 end 方 法 可 结束 整个 Cocos2dX 的 绘 
x I 添加 一 个 动画 按钮 ， 
码 如 下 : 


auto animationBtn = Label::createWithTTF("show", "fonts/Marker Felt.ttf", 10); 
animationBtn->setAnchorPoint(Point(0, 0)); 
auto listener = EventListenerTouchOneByOne: :create(); 
listener->setSwallowTouches(true); 
listener->onTouchBegan = [] (Touch *touch, Event *event) { 
If (event->getCurrentTarget()->getBoundingBox(). 
containspPoint(touch->getLocation())) { 
Scene* Scene = Director::getInstance()->getRunningScene( ) ; 
AnimationScene* animation = (AnimationScene*) Scene 
animation->showAnimation(); 
return true; 


return false,; 


了 
Director::getInstance()->getEventDispatcher()-> 
addEventListenerwithSsceneGraphPriority(listener, animationBtn); 
animationBtn->setPosition(Vec2(origin.x + 0, origin.y)); 
this->addchild(animationBtn, 1); 


虽然 这 里 称 为 增加 了 一 个 按钮 ， 实 际 上 使 用 的 是 Cocos2dX 提 供 的 
Label 控 件 ， 首 先 加 载 一 个 字体 ， 人 (show) 与 字体 大 小 
(10) 创建 一 个 label， 并 创建 一 个 监听 事件 ， 这 个 监听 事件 被 触发 的 
时 候 会 取出 当前 Director 运 行 的 场景 ， 并 调用 ee 接 
人 这 个 监听 事件 ， 最 后 给 label 设 置 位 置 ， 并 加 入 Layer 


至 此 关键 的 API 也 已 经 介绍 完成 。 


11.5.3 ”实现 一 款 动画 


本 会 市 领 大 家 实现 一 个 亲吻 的 动画 展示 ， 首 移 来 看 由 所 有 烦 组 
成 的 一 张大 图 片 ， 如 图 11-7 所 示 。 


图 11-7 


图 11-7 古 将 序列 帧 图 像 合 并 在 一 起 得 到 的 ， 接 着 来 看 将 整 张 图 片 裁 
剪 成 为 动画 帧 序列 的 plist 配 置 文件 ， 如 图 11-8 所 示 。 


plist 配 置 文件 摘 述 了 每 一 帧 岁 乒 应 该 在 整 张 岁 斤 的 位 置 以 及 旋转 角 
度 ，Cocos2dX 引 人 警 可 以 解析 这 个 plist 配 置 文件 并 结合 原始 图 片 最 终 形 
成 序列 帧 。 设 计 人 员 如 何 生成 plist 配 置 文件 以 及 合并 整 张 图片 呢 ? 答案 
是 使 用 TexturePacker 工 具 ，Pplist 配 置 文件 也 是 可 以 被 大 部 分 游戏 引擎 解 
析 的 ， 其 中 包括 Cocos2dX、libGDX、Unity3D 等 。 当 设计 人 员 利 用 AE 
开发 完 动 画 之 后 ， 然 后 导出 png 序 列 图 ， 之 后 使 用 TexturePacker 制 作成 
为 plist 配 置 文件 与 大 图 的 形式 ， 然 后 提供 给 开发 者 使 用 。 接 下 来 看 看 如 
何 利 用 整 张 图 片 与 这 个 配置 文件 完成 动画 的 展示 。 


frames Dictionary (11 items) 
vel_kiss00.png Dictionary (5 items) 
frame String {{442,2}),{190,278}} 
offset String {44,-49} 
rotated OO Boolean NO 
sourceColorRect String {{99,110}),{190,278}}) 
sourceSize String {300,400) 
bp el_kiss01.png Dictionary (5 items 
bel_kiss02.png Dictionary (5 items 
b el_kiss03.png Dictionary (5 items) 
bel_kiss04.png Dictionary (5 items 
pel_kiss05.png Dictionary (5 items 
bel_kiss06.png Dictionary tems 
> el_kiss07.png Dictionary tems) 
pel_kiss08.png Dictionary (5 items 
pel_kiss09.png Dictionary (5 items 
bel_kissi0.png Dictionary tems 
v metadata Dictionary 5 items) 
format Number 2 
realTextureFileName String el_kiss.png 
size String {1024,1024} 
smartupdate String $TexturePacker'SmartUpdate:491988aag9bacfaee86f3477ef53c707e:1/1$ 
textureFileName String el_kiss.png 
图 11-8 


在 Cocos2dX 中 ， 每 一 个 能 运动 的 物体 都 可 以 理解 为 一 个 精灵 ， 那 
人 
中: 


SpriteFrameCache * cache = SpriteFrameCache::getInstance(); 
cache->addSspriteFrameswithFile("el kiss.plist"); 


将 plist 配 置 文件 解析 完成 后 ， 所 有 的 帧 序列 都 存在 于 缓存 中 了 。 接 
下 来 利用 名 字 创 建 一 个 精灵 对 象 ， 代 码 如 下 : 


auto kissSprite = Sprite::createwithSpriteFrameName("el kiss00.png"); 
int randomY = random(170.f, screenHeight - 80.f); 
kissSprite->setPosition(screenwidth + 30, randomY); 
kissSprite->setOpacity(255); 

this->addchild(kissSprite); 


以 上 代码 中 先 使 用 第 一 张 图 片 创建 了 一 个 精灵 对 象 ， 然 后 设置 了 
位 置 与 透明 属性 ， 由 于 这 个 位 置 是 画 在 屏幕 的 右 侧 还 要 再 加 30 个 像素 
的 地 方 ， 所 以 暂时 看 不 到 。 最 后 将 这 个 精灵 加 入 这 个 场景 中 。 接 下 来 
为 这 个 精灵 安排 动画 ， 动 画 分 为 三 部 分 ， 第 一 部 分 是 从 屏幕 右 侧 移动 
到 屏幕 中 间 ， 第 二 部 分 是 重复 3 次 整个 序列 帧 动画 ， 第 三 部 分 是 重新 移 
i 
立 置 ， 代 码 如 下 : 


auto kissFirstStepMoveAction = MoveTo::create(0.3, 
Vec2(screenwWidth - 200, randomY)); 
auto kissFirstStepEaseOutAction = EaseOut::create(kissFirstStepMoveAction, 2); 
auto kissFirstMoveTargetAction = TargetedAction::create(kissSprite, 
kissFirstStepEaseOutAction); 


代码 中 的 第 一 行 定义 了 一 个 移动 的 动 男 ， 相 当 于 从 原来 的 位 置 历 
经 0.3s 时 间 移 动 到 屏幕 宽度 减 去 200 的 位 置 〈 纵 坐标 不 变 ， 依 然 是 
randomY) ， 然 后 使 用 EaseOut 进 行 封 装 ， 主 要 是 为 了 将 匀速 运动 变 成 
非 勺 速 运动 ， 最 终 使 用 TargetedAction 在 这 个 精灵 上 创建 出 这 个 动作 。 
下 面 来 看 第 二 部 分 的 动画 ， 代 码 如 下 : 


// 1: 在 缓存 中 拿 出 所 有 精灵 帧 

Vector<SpriteFrame *>animFrames(11); 

char str[100] = {0}; 

for(int i = 0;i < 11 ;i++) { 
sprintf(str, "el_ kiss%02d.png",i); 
SpriteFrame *frame = cache->getSpriteFrameByName(str); 
animFrames.pushBack(frame); 


} 

// 2: 创 建 Animation 

auto animation = Animation::createwithSpriteFrames(animFrames, 1.0 / 11, 3); 

// 3: 构 建 Action 

auto kissAnimationAction = Animate::create(animation); 

auto kissAnimationTargetAction = TargetedAction::create(kissSprite, 
kissAnimationAction); 


可 以 看 到 以 上 代码 段 分 为 三 部 分 ， 第 一 部 分 在 精灵 缓存 池 中 拿 出 
所 有 的 精灵 帧 放 入 一 个 数组 中 ， 第 二 部 分 利用 这 个 数组 中 的 精灵 帧 和 


延迟 时 间 以 及 循环 次 数 创 建 出 Animation 对 象 ， 第 三 部 分 利用 这 个 
Animation 对 象 构造 出 动作 。 下 面 来 看 最 后 一 部 分 的 动画 ， 代 码 如 下 : 


auto kissLastStepMoveAction = MoveTo':':create(0.2， 
Vec2(screenwWidth + 30, randomY)); 
auto kissLastStepEaseInAction = EaseIn::create(kissLastStepMoveAction, 2); 
auto kissLastMoveTargetAction = TargetedAction::create(kissSprite, 
kissLastStepEaseInAction),; 


这 与 第 一 部 分 的 动画 正好 相反 ， 是 向 屏幕 的 右 侧 移 动 ， 使 用 EaseIn 
将 匀速 运动 封装 为 非 匀 速 运动 。 最 后 将 这 二 部 分 动画 封装 到 一 个 序列 
动作 中 ， 并 在 结束 的 时 候 将 这 个 精灵 对 象 移 除 ， 之 后 将 这 个 序列 动作 
放 入 场景 中 执行 ， 代 码 如 下 : 


auto sequence = Sequence::create(kissFirstMoveTargetAction, 
kissAnimationTargetAction, kissLastMoveTargetAction, 
CallFunc: :create(CC_ CALLBACK_ O(Node::removeFromPparent, kissSprite)), 
NULL ) ， 
this->runAction(sequence); 


至 此 ，showAnimation 方 法 就 实现 好 了 ， 这 个 方法 完成 了 动画 的 展 
示 ， 读 着 可 以 参考 代码 仓库 中 的 源码 进行 分 析 ， 以 便于 深入 理解 。 


11.6 ”聊天 系统 的 实现 


聊天 系统 也 有 很 多 手段 可 以 实现 ， 在 直播 App 中 使 用 的 聊天 系统 
不 只 用 于 聊天 ， 还 会 作为 这 个 直播 房间 的 指令 控制 系统 。 那 指令 控制 
系统 都 包含 哪些 指令 呢 ? 比如 主播 要 足 出 某 一 个 观众 ， 或 者 要 华 言 
一 个 观众 ， 观 众 给 主播 赠送 了 一 个 礼物 等 ， 部 属于 一 条 条 的 控制 指 
令 ， 其 实 真正 的 聊天 内 容 也 可 以 看 作 一 个 指令 ， 整 古 聊 天 指令 。 实 现 
手段 也 有 很 多 种 ， 其 中 最 第 用 的 束 是 WebSocket 协 议 。 本 市 将 详细 介绍 
如 何 利 用 WebSocket 来 实现 指令 控制 (或 者 聊天 系统 ) 。 


WebSocket API 是 下 一 代 客 户 并 -服务 器 的 异步 通信 方法 ， 是 
HTML5 规 范 中 替代 AJAX 的 一 种 狐 技 术 。 现 在 ， 很 多 网 站 为 了 实现 推 
送 技术 ， 使 用 的 技术 都 是 轮 询 。 轮 询 是 在 特定 的 时 间 间 隔 (如 每 1 
秒 ) ， 由 浏览 器 对 服务 器 发 出 HTTP request， 然 后 由 服务 器 返回 最 新 
的 数据 给 客 尸 端的 浏览 颖 。 这 种 传统 的 模式 有 很 明显 的 缺点 ， 即 浏 贤 
铝 需 要 不 断 地 向 服务 器 发 出 请 求 。 然 而 ，HTTP request 的 header 是 非常 
长 的 ， 里 面包 含 的 数据 可 能 只 是 一 个 很 小 的 值 ， 这 样 会 占用 很 多 的 囊 
宽 和 服务 需 资 源 。 新 的 轮 询 技术 是 Comet， 使 用 了 AJAX。 这 种 技术 虽 
然 可 达到 双 同 通信 ， 但 依然 要 发 出 请 求 ， 而 在 Comet 中 ， 兽 裔 采用 了 
长 链接 ， 这 也 会 大 量 消 耗 服 务 眉 带宽 和 资源 。 面 对 这 种 状况 ，HTML5 
定义 了 WebSocket 协 议 ， 能 更 好 地 节省 服务 器 资源 和 市 宽 并 能 实时 通 
信 ， 且 实现 了 浏 贤 器 与 服务 器 全 双 工 通信 (full-duplex) 。 在 
WebSocket API 中 ， 浏 贤 器 和 服务 絮 只 需要 做 一 个 握手 的 动作 ， 浏 贤 器 
和 服务 絮 之 间 就 形成 了 一 条 快速 通道 。 两 者 之 则 可 直接 进行 数据 互相 
传送 。 但 是 它 不 单单 仅 适 用 于 Web 端 ， 在 客户 端 使 用 起 来 也 非常 方 
便 ， 一 般 使 用 在 客户 端 会 维护 一 个 WebSocket 对 象 ， 该 对 象 可 以 调用 发 
的 ` 发 送 消 轧 、 关 闭 连 接 的 方法 ， 同 时 要 为 这 个 对 象 绑 定 以 下 四 
| (©) 


-onOpen: 连接 建立 时 触发 。 
-onMessage: 收 到 服务 端 消 息 时 触发 。 
-onError: 连接 出 错时 触发 。 
-onClose: 连接 关闭 时 触发 。 


在 这 四 个 事件 中 ， 开 发 者 可 以 执行 自己 的 操作 ， 下 面 分 别 介 绍 如 
何在 Android 和 iOS 客 户 端 使 用 WebSocket 技 术 实 现 简单 的 聊天 系统 。 


11.6.1 Android 客 尸 问 的 WebSocket 实 现 


Android 客 户 端 比较 常用 的 WebSocketClient 有 autobahn 、 
AndroidAsync、Java-WebSocket， 笔 者 使 用 的 是 autobahn， 读 者 可 以 根 


据 自 己 的 合用 场景 来 选择 。 现 在 来 看 如 何 使 用 autobahn 实 现 一 个 聊天 


系统 人 


首先 来 看 实例 化 WebSocket 对 象 与 发 起 连接 的 实现 ， 代 码 如 下 : 


WebSocket mConnection = new WebSocketConnection(); 


String wsuri = "ws://echo.websocket.org"; 
mConnection.connect(wsuri, new WebSocketConnectionHandler() { 
Q@Override 


public void onopen() { 


QOverride 
public void onClose(int code, String reason) { 


Q@Override 
public void onTextMessage(String payload) { 


QOverride 
public void onBinaryMessage(byte[] payload) { 


QOverride 
public void onRawTextMessage(byte[] payload) { 


} 
}); 


从 以 上 代码 可 以 看 到 ， 在 对 地 址 "ws: //echo.websocket.org" 发 起 连 
接 时 ， 需 要 传递 一 个 回调 接口 ， 当 打开 连接 成 功 的 时 候 会 回调 onOpen 
方法 ， 用 来 提示 用 户 已 经 连接 成 功 ， 并 且 开 发 者 也 会 开始 发 送 Ping 命 
令 ， 以 保持 心跳 连接 ;如 采 打 开 连 接 失 败 ， 回 调 onClose 方 法 ， 开 发 者 
可 以 在 这 里 尝试 重 试 策 略 ， 或 者 提示 用 户 连 接 失 败 ， 当 收 到 消息 的 时 
候 ， 如 果 是 字符 串 类 型 的 消息 ， 则 回调 onTextMessage 方 法 ; 如果 是 二 
进 制 类 型 的 消息 ， 则 回调 onBinaryMessage 方 法 。 


接 下 来 发 送 Ping 消 息 ， 直 接 调 用 WebSocket 对 象 的 sendPing 方 法 ， 
如 采 发 送 实际 的 消 妃 ， 束 调用 sendTextMessage 方 法 ， 而 在 最 终 关 闭 连 
接 的 时 候 调 用 disconnect 方 法 就 可 。 


11.6.2 iOS 客 户 闪 的 WebSocket 实 现 


iOS 客 户 端 实现 WebSocket 使 用 最 多 的 束 是 SocketRocket 这 个 第 三 
方 库 ， 大 家 可 以 在 GitHub 上 下 载 这 个 库 ， 当 然 也 可 以 直接 在 代码 仓库 
中 拿 到 源码 。 把 这 个 库 的 目录 拖 到 项 目 中 后 ， 还 要 为 项 目 添 加 一 个 
libicucore.tbd 库 ， 然 后 引入 SRWebSocket 的 头 文件 ， 代 码 如 下 : 


#import "SRWebSocket.h" 


之 后 让 ViewController 实 现 头 文件 中 的 SRWebSocketDelegate 协 议 ， 
这 时 需要 重 写 以 下 方法 : 


- (void)webSocketDidopen:(SRwebSocket *)webSocket { 
- (void)webSocket: (SRWebSocket *)webSocket didFailwithError:(NSError *)error { 
- (void)webSocket:(SRWebSocket *)webSocket didReceiveMessage:(id)message { 


- (void)webSocket:(SRWebSocket *)webSocket didclosewithcode:(NSInteger )code 
reason: (NSString *)reason wasClean: (BOOL)wasClean { 
} 


协议 中 定义 的 这 四 个 方法 ， 分 别 对 应 前 面 介绍 的 四 个 事件 ， 它 们 
分 别 在 连接 成 功 的 时 候 回 调 webSocketDidOpen 方 法 ， 可 以 提示 给 用 户 
连接 成 功 以 及 取消 挥 Loading 杠 ， 并 同时 启动 一 个 定时 器 ， 定 时 给 服务 
器 发 送 ping 的 消息 ， 以 保证 自己 处 理 存活 状态 ， 连 接 失 败 的 时 候 回 调 
webSocket: didFaileWithError 方 法 ， 开 发 者 可 以 重 连 策 略 ， 如 果 不 重 
连 ， 应 该 提示 给 用 户 连 接 失 败 ; 接收 到 消息 的 时 候 回 调 webSocket: 
didReceiveMessage 方 法 。 由 于 可 以 传递 二 进 制 的 消 恩 ， 所 以 开发 者 可 
以 判断 参数 中 的 message 类 型 ， 再 去 做 目 己 的 处 理 ; 并 且 可 在 连接 最 终 
关闭 的 时 候 回 调 webSocket: didCloseWithCode: reason: wasClean 方 
法 ， 开 发 者 可 以 根据 关闭 原因 去 尝试 重 连 ， 并 记录 错误 原因 。 


而 真正 的 实例 化 WebSocket 对 象 以 及 发 起 连接 操作 也 很 简单 ， 代 三 


如 下 


NSString *url = "ws://echo.websocket.org"; 

SRWebSocket *webSocket = [[SRWebSocket alloc] initwithURLRequest : 
[NSURLRequest requestWithURL: [NSURL URLWithString:ur1]]]， 

webSocket.delegate = self,; 

[webSocket open]; 


如 果 要 发 送 消 息 ， 则 调用 WebSocket 的 send 方 法 ， 最 终 退 出 界面 的 
时 候 可 以 调用 close 方 法 来 关闭 掉 连 接 。 


当然 ， 要 想 真 正 运 行 一 个 聊天 室 ， 还 需要 有 一 个 服务 器 的 支持 。 
可 以 使 用 WebSocket 开 源 网 站 提供 的 服务 器 地 址 : 
ws: /Wecho.websocket.org。 寿 想 要 目 己 搭建 一 个 WebSocket 服 务 器 ， 可 
使 用 Java-WebSocket 库 写 一 个 JavaSE 的 程序 ， 用 于 将 发 布 者 的 消息 转 
发 给 所 有 订阅 者 。 如 果 想 要 真正 部 团 到 WebSever 上 ， 可 以 使 用 Tomcat 
容 需 来 运行 一 个 JavaEE 的 Servlet， 这 个 Servlet 可 以 使 用 javax.websocket 
包 中 WebSocket 相 天 的 类 来 构建 一 个 转发 程序 ， 从 而 将 发 布 者 的 消息 转 
发 给 所 有 订阅 者 。 


11.7 “本章 小 结 


在 实现 了 上 述 所 有 模块 之 后 ， 最 终 构建 的 直播 系统 如 图 11-9 所 示 。 


WebSocket 3 
”指令 控制 中 心 
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D HttpServer 


调度 中 心 


2 
一 I 


图 11-9 


如 图 11-9 所 示 ， 首 先 来 看 主播 端 (Anchor) ， 主 播 要 想 开 播 ， 应 先 
去 请 求 调 度 中 心 的 开播 接口 ， 调 度 中 心 会 返回 两 个 地 址 ， 一 个 是 流 媒 
体 中 心 的 地 址 ， 一 个 是 指令 控制 中 心 的 地 址 ; 然后 主播 会 拿 着 流 媒体 
中 心地 址 去 连接 Live 服 务 右 ， 连 接 成 功 之 后 就 可 以 推 流 了 ; 接着 拿 着 指 
令 控 制 中 心 的 地 址 去 连接 WebSocket 服 务 器 ， 连 接 成 功 之 后 就 可 以 接受 
观众 进入 房间 、 聊 天 、 礼 物 等 指令 ， 也 可 以 发 送 禁 言 、 足 人 等 指令 。 
再 来 看 看 观众 端 (Audience) ， 为 了 加 快 用 户 的 首 屏 时 间 (从 点 击 进 入 
某 个 主播 的 房间 开始 ， 到 看 到 主播 视频 的 时 间 称 为 首 屏 时 间 ) ， 系 统 
中 所 有 展示 房间 的 位 置 都 会 元 余 这 个 主播 的 流 媒 体 地 址 字段 ， 所 以 不 
用 请 求 HttpServer 就 可 以 直接 观看 这 个 主播 的 直播 。 但 是 ， 为 了 继续 和 
主播 发 生 聊 天 、 送 礼物 等 交互 行为 ， 并 且 验 证 目 己 的 号 份 是 否 合法 
(可 能 被 主播 禁 言 或 者 踢 掉 ) ， 还 要 请 求 HttpServer 拿 到 指令 控制 中 心 
地 址 ， 然 后 去 连接 WebSocket 服 务 咽 ， 如 采 连 接 成 功 就 可 以 接收 到 指令 


以 及 发 送 对 应 的 指令 。 这 样 ， 通 过 这 些 模块 的 共同 交互 瑟 构 建 出 了 一 
个 可 用 的 直播 系统 。 但 是 ， 要 想 让 这 个 直播 系统 表现 得 更 好 ， 还 有 一 
些 细 世 需要 处 理 ， 比 如 对 弱 网 环境 下 主播 端的 处 理 ， 加 快 拉 流 端的 首 
屏 时 间 ， 两 端 利 用 统计 数据 来 帮助 我 们 完善 整个 系统 的 迭代 更 新 等 。 


第 12 章 ”直播 应 用 中 的 天 键 处 理 


第 11 章 中 已 经 将 第 5 草 的 播放 需 项 目 改 造成 了 一 个 可 用 的 拉 流 端 播 
放 器 ， 并 将 第 10 革 中 的 视频 录制 右 改 造成 了 一 个 可 用 的 推 流 工具 。 本 
革 会 基于 第 11 半 可 用 状态 下 的 推 流 工 具 和 拉 流 播放 右 进 行 改进 ， 做 一 
些 关键 处 理 ， 以 达到 一 个 企业 级 直播 产品 的 要 求 。 


12.1 直播 应 用 的 细 太 分 析 


本 下 会 分 两 个 部 分 来 分 析 推 流 痕 和 拉 流 端 在 实际 生产 过 程 中 遇 到 
的 问题 ， 然 后 会 给 出 实现 思路 ， 而 这 些 问 题 应 该 是 直播 产品 部 会 遇 到 
的 ， 并 且 有 可 能 是 读者 现在 最 头疼 的 问题 。 所 以 ， 下 面 逐 一 分 析 并 提 
出 解决 问题 的 方法 。 


12.1.1 ” 推 流 闹 细 地 分 析 
1. 目 适应 码 率 


网 络 环境 不 稳定 一 直 困 扰 着 部 分 主播 ， 特 别 征 在 直播 场景 中 ， 这 
其 中 既 包 括 一 些小 运 彰 商 的 上 行 市 宽 分 配 不 合理 、 域 名 解析 错误 等 因 
素 导 致 的 问题 ， 也 包括 网 络 拌 动 、 暂 时 的 网 络 链 路 拥塞 等 问题 ， 这 使 
得 观众 端 无 法 流畅 地 观看 主播 的 表演 ， 也 让 和 直播 无 法 继续 。 基 于 用 户 
在 直播 中 的 这 个 痛 点 ， 我 们 采用 目 动 升降 码 率 技术 来 解决 这 个 问题 。 
解决 方案 驶 是 : 实时 根据 主播 所 处 的 网 络 环境 ， 调 整 主播 的 视频 码 
率 ， 以 达到 观众 端 可 以 流畅 观看 主播 以 及 与 主播 互动 的 效果 。 


2. 数 据 统计 


对 于 主播 端的 数据 统计 是 非常 重要 的 ， 因 为 它 能 反映 出 平台 内 主 
播 的 网 络 状况 ， 直 播 时 长 等 行为 ， 也 是 所 有 直播 产品 必须 做 的 事情 。 
统计 的 数据 包括 开始 直 揪 时间、 连接 CDN 推 流 节 点 服务 右 的 连 授 时 
长 、 推 流 时 长 、 丢 帧 率 、 推 流 的 平均 码 率 、 目 动 升降 码 率 的 变动 表 
等 。 通 过 这 些 统计 数据 ， 产 品 部 门 和 运营 部 门 可 以 针对 性 地 举办 一 些 
活动 ， 引 导 主 播 增 加 直播 时 间 ， 也 有 助 于 我 们 推动 CDN 厂 商 给 主播 更 
优 的 链 路 节点 ， 还 可 以 优化 目 动 升降 码 率 策略 。 


12.1.2” 拉 流 闹 细 坟 分 析 


1. 重 试 机 制 


由 于 拉 流 播放 器 的 媒体 资源 在 网 络 上 ， 所 以 有 可 能 会 出 现 建立 连 
接 失 败 的 情况 ， 或 者 寻找 流 信息 失败 的 情况 。 基 于 此 ， 妥 建立 重 试 机 
0 


2. 秒 开 视 频 


在 拉 尝 播放 器 中 ， 最 重要 的 体验 就 古 观 从 点 击 了 一 个 主播 的 房间 
之 后 ， 可 以 在 最 短 的 时 间 内 听 到 主播 的 声音 并 看 到 主播 的 画面 ， 这 在 
直播 领域 称 为 秒 开 视频 。 这 也 是 评判 一 个 直播 App 体 验 最 重要 的 一 
点 ， 我 们 要 做 的 就 是 尽量 缩短 首 屏 时 间 。 实 现 思路 就 是 ， 当 用 户 点 击 
行为 发 生 之 后 ， 束 直接 局 动 播 放 右 ， 然 后 再 跳 转 到 直播 房间 页 面 ， 在 
页 面 跳 转 过 程 中 ， 拉 流 播放 器 就 已 经 将 一 段 音频 和 视频 解码 成 功 ， 当 
真正 进入 这 个 主播 页 面 时 就 已 经 加 载 了 这 个 直播 流 。 昌 然 这 是 客户 站 
能 做 到 的 ， 但 是 需要 CDN 厂 商 的 配合 ， 包 括 视 频 关 键 帧 的 缓存 、CDN 
节点 的 部 署 、 网 络 链 路 的 优化 等 。 


3. 数 据 统 计 


对 于 拉 流 播放 器 来 说 ， 数 据 统 计 也 是 非常 重要 的 ， 其 中 包括 开始 
打开 流 的 时 间 、 打 开 流花 费 的 时 间 、 打 开 流失 败 花 费 的 时 间 、 打 开 流 
失败 的 类 型 、 重 试 次 数 、 首 屏 时 间 、 拉 流 时 长 、 卡 顿 次 数 等 。 可 通过 
这 些 统计 参数 来 具体 优化 拉 流 播放 器 的 流程 ， 比如 通过 下 虎 次 数 来 优 
化 缓存 大 小 ， a ea ear 统 
ee 这 些 统计 数据 的 存在 ， 我 们 才 有 策略 文 撑 的 
代 


上 述 需 求 其 实 是 一 个 成 熟 的 直播 产品 都 应 该 具有 的 功能 ， 现 在 市 
着 这 些 问 题 与 实现 思路 继续 学 习 后 面 的 章节 吧 。 


12.2 ” 推 流 端的 天 键 处 理 


本 太 将 针对 推 流 剖 来 解决 12.1 厄 提出 的 问题 ， 主 要 还 是 针对 复杂 
的 网 络 环境 来 优化 我 们 的 推 流 策 略 ， 以 便 让 整个 直播 可 以 流畅 进行 ， 
同时 也 要 将 整个 直播 过 程 中 主播 的 直播 状态 以 统计 数据 的 形式 上 报 给 
服务 器 ， 从 而 方便 后 续 的 达 代 改进 。 所 以 本 市 分 为 两 部 分 ， 第 一 部 分 
古 将 目 适 应 码 率 策略 集成 入 我 们 的 系统 ， 第 二 部 分 古 采 集 具 体 直 播 过 
程 中 的 数据 ， 并 分 析 这 些 数据 将 来 可 能 产生 的 意义 。 请 读者 市 厦 以 上 
两 个 问题 开始 本 市 的 学 习 。 


12.2.1 目 适 应 码 率 的 实践 


目 适 应 码 率 策略 解决 的 问题 或 者 适用 的 场景 已 经 在 12.1.1 广 中 介绍 
了 ， 如 果 对 这 个 策略 所 要 解决 的 问题 还 不 是 很 清楚 ， 建 议 再 看 看 相应 
的 分 析 。 下 面 来 看 实现 思路 :在 推 流 过 程 中 ， 我 们 可 以 根据 当时 主播 
的 网 络 情况 ， 测 算出 网 络 出 口 市 宽 是 多 少 ， 进 而 和 编码 厚 产 生 的 数据 
量 进 行 比较 : 如 采 网 络 出 口 市 宽大 于 编码 硕 产 生 的 数据 量 ， 则 可 以 提 
高 视频 质量 ( 增 大 编码 器 的 码 率 设置 ， 同 时 增 大 视频 的 fps 以 达到 更 加 
流畅 的 效果 ) ， 可 以 让 主播 发 布 出 更 加 优质 的 视频 ;如 果 网 络 出 口 带 
宽 和 编码 叫 产 生 的 数据 量 相近 ， 那 么 视频 质量 可 不 做 任何 变化 ， 如 果 
网 络 出 口 带宽 小 于 编码 响 产 生 的 数据 量 ， 那 就 要 降低 视频 质量 (降低 
编码 器 的 码 率 设 置 ， 同 时 减 小 视频 的 fps 以 免 视频 质量 太 差 ) 以 使 主播 
可 以 流畅 地 进行 直播 。 由 于 整个 流 的 码 率 中 视频 轨 码 率 达 90% 以 上 ( 视 
频 轨 码 率 默 认 设置 为 600Kbps， 音 频 轨 人 码 率 默 认 设置 为 64Kbps) ， 所 以 
只 需 处 理 视频 轨 的 设置 就 能 满足 大 部 分 场景 ， 整 体 实现 结构 如 图 12-1 所 
示 “。 


根据 网 络 实时 状态 ， 按 照 策略 调整 山 码 哄 的 码 率 设 曾 


摄像 头 编码 后 的 网 络 带宽 


编码 器 
采集 出 的 YUV 数据 硬件 \ 软 件 编码 器 H264 数据 监测 


图 12-1 


图 12-1 中 所 示 的 流程 为 ， 摄 像 头 采 集 出 的 YUV 数 据 经 由 编码 如 进 
行 编码 ， 成 为 H264 数 据 ， 然 后 Muxer 模 块 将 H264 数 据 进行 封装 ， 并 发 
送 到 流 媒体 服务 器 上 (这 里 的 实现 是 使 用 CDN 的 推 流 节点 ) ， 在 发 送 
之 后 由 网 络 市 宽 监测 模块 来 监测 实际 的 网 络 上 行 带宽 ， 然 后 经 过 一 定 
的 策略 调整 反馈 给 编码 占 ， 再 进行 码 率 设 置 。 因 此 ， 整 个 系统 中 有 二 
个 核心 模块 ， 第 一 个 是 网 络 市 宽 监 测 模块 ， 第 二 个 十 码 率 调 整 策 略 ; 
第 三 个 是 实时 改变 编码 右 的 码 率 。 


1. 网 络 帝 宽 监 测 模 块 


这 个 模块 不 仅 要 能 够 监测 网 络 上 行 市 宽 ， 也 要 能 够 监测 编码 需 编 
码 出 来 的 码 率 是 多 少 ， 这 样 才 可 以 进行 对 比 ， 从 而 确定 当前 网 络 上 行 


市 宽 是 否 足 以 将 编码 大 编码 出 来 的 视频 帧 发 布 到 CDN 束 服务 娟 上 。 
为 了 方便 下 文中 的 讨论 ， 首 先 统一 一 下 术语 ， 网 络 上 行 带宽 称 为 发 送 
码 率 ， 编 码 亏 编码 出 来 的 码 率 称 为 压缩 码 率 。 而 在 监测 的 过 程 中 ， 仅 
看 某 一 时 刻 的 两 个 码 率 不 足以 反映 问题 ， 应 该 要 监测 一 个 窗口 时 间 段 
的 平均 码 率 ， 而 这 个 窗口 的 时 间 可 以 根据 自己 的 场景 进行 配置 (3~ 
10s 都 可 以 ) 。 首 先 定 义 一 个 窗口 码 率 的 结构 体 ， 代 码 如 下 : 


typedef struct WindowBitRate { 
int startTimeInSecs,; 

int endTimeInSecs,; 

int bitRate,; 

WindowBitRate() { 
this->startTimeInSecs = 0; 
this->endTimeInSecs = 0; 
this->bitRate = 0; 


void update(int startTimeInSecs, int endTimeInSecs, int bitRate) { 
this->startTimeInSecs = startTimeInSecs,; 
this->endTimeInSecs = endTimeInSecs,; 
this->bitRate = bitRate; 


void clone(WindowBitRate *windowBitrate) { 
this->startTimeInSecs = windowBitrate->startTimeInSecs,; 
this->endTimeInSecs = windowBitrate->endTimeInSecs; 
this->bitRate = windowBitrate->bitRate; 


} 
} WindowBitRate,; 


这 个 窗口 的 结构 体 将 开始 时 间 、 结 束 时 间 以 及 平均 码 率 都 封装 了 
起 来 ， 而 BitRate-Monitor 中 为 了 记录 发 送 码 率 和 压缩 码 率 ， 并 且 为 了 让 
这 两 种 类 型 的 码 率 可 以 对 应 上 ， 声 明了 四 个 变量 ， 分 别 代表 上 一 个 窗 
0 
下 : 


WindowBitRate *sendLastwindowAVGBitrate,; 
WindowBitRate *sendCurwWindowAVGBitrate; 
WindowBitRate *compressLastwWindowAVGBitrate; 
WindowBitRate *compressCurWindowAVGBitrate,; 


统计 过 程 结 构 如 图 12-2 所 示 。 


Encoder 


2. 统计 窗口 
时 间 发 送 的 
数据 量 大 小 


BitRateMonitor 
1. void statisticsCompressData(double timeMills, int size) 
2. void prePulishPkt() && void publishPktSuccess(int pktSize) 


图 12-2 


在 图 12-2 中 ， 统 计 码 率 的 模块 用 BitRateMonitor 类 来 表示 ， 待 编码 
厂 编 码 出 一 帧 之 后 ， 可 以 将 这 一 帧 的 时 间 惟 和 这 一 帧 的 大 小 来 调用 
statisticsSCompressData 方 法 ， 这 个 方法 会 将 这 一 帧 放 到 合适 的 窗口 中 ， 
如 果 满 足 这 个 窗口 的 统计 ， 则 会 计算 出 这 个 窗口 的 平均 码 率 是 多 少 ， 
每 当 积攒 出 一 个 压缩 码 率 的 窗口 ， 就 克隆 到 compressAVGBitRate 的 Last 
中 ， 并 且 更 新 当前 的 开始 时 间 、 结 束 时 间 以 及 平均 码 率 。 


Publisher 模 块 也 一 样 ， 在 发 送 一 个 AVPacket 结 构 体 之 前 ， 要 调用 这 
个 类 的 prePublishPkt 方 法 ， 竺 发送 结束 之 后 ， 再 将 这 个 AVPacket 的 大 小 
调用 publishPktSuccess 方 法 ， 这 个 方法 把 发 送出 去 的 大 小 都 票 积 起 来 ， 
等 到 积攒 够 了 一 个 窗口 之 后 就 克隆 到 sendAVGBitRate 的 Last 中 ， 并 且 更 
新 当前 的 开始 时 间 、 结 束 时 间 以 及 平均 码 率 。 注 意 Publisher 中 的 时 间 稚 
是 发 送 的 相对 时 间 惟 ， 用 于 衡量 当前 一 个 窗口 时 间 内 发 送出 去 了 多 大 
容量 的 数据 ， 以 此 来 记录 当前 网 络 上 行囊 宽 是 多 少 。 


2. 码 率 调整 策略 


上 面 统 计 出 来 的 窗口 码 率 、 压 缩 窗口 码 率 和 发 送 窗 口 码 率 的 时 间 
不 一 定 是 对 应 的 。 也 就 是 说 ， 有 可 能 会 出 现 压 缩 窗口 码 率 记 录 的 是 时 
间 范 围 为 [105，110] 秒 内 的 压缩 码 率 ， 发 送 和 窗口 码 率 记 录 的 却 是 [100， 
105] 秒 内 的 发 送 码 率 ， 这 样 就 没有 参考 的 依据 了 。 所 以 ， 上 面 为 每 一 种 
类 型 的 窗口 码 率 都 做 了 一 个 Last 和 一 个 Current 这 两 个 窗口 码 率 。 在 比较 
的 时 候 ， 应 该 先 选取 正确 的 对 应 顺序 ， 然 后 再 取出 码 率 ， 这 才 是 期 竺 
的 发 送 码 率 和 压缩 码 率 ， 代 码 如 下 : 


int compressAVGBitrate = compressCurwindowAVGBitrate->bitRate， 
int sendAVGBitrate = sendCurwindowAVGBitrate->bitRate; 
int curCurDiff = abs(compressCurwWindowAVGBitrate->startTimeInSecs - 
sendCurwindowAVGBitrate->startTimeInSecs); 
int curLastDiff = abs(compressCurWindowAVGBitrate->startTimeInSecs - 
sendLastwindowAVGBitrate->startTimeInSecs); 
int lastCurDiff = abs(compressLastWindowAVGBitrate->startTimeInSecs - 
sendCurwWindowAVGBitrate->startTimeInSecs); 
int lastLastDiff = abs(compressLastwindowAVGBitrate->startTimeInSecs - 
sendLastwindowAVGBitrate->startTimeInSecs); 
if (curCurDiff <= curLastDiff && curCurDiff <= lastCurDiff 
&& curCurDiff <= lastLastDiff) { 
compressAVGBitrate = compressCurwWindowAVGBitrate->bitRate; 
sendAVGBitrate = sendCurwindowAVGBitrate->bitRate; 
} else if (curLastDiff < curCurDiff && curLastDiff <= lastCurDiff && 
curLastDiff <= JastLastDiff) { 
compressAVGBitrate = compressCurWindowAVGBitrate->bitRate; 
sendAVGBitrate = sendLastwindowAVGBitrate->bitRate; 
} else if (lastCurDiff < curCurDiff && lastCurDiff <= curLastDiff && 
lastcCurDiff <= JastLastDiff) { 
compressAVGBitrate = compressLastwindowAVGBitrate->bitRate; 
sendAVGBitrate = sendCurwWindowAVGBitrate->bitRate,; 
} else if (lastLastDiff < curCurDiff && lastLastDiff <= curLastDiff && 
lastLastDiff <= lastCurDiff) { 
compressAVGBitrate = compressLastwWindowAVGBitrate->bitRate,; 
sendAVGBitrate = sendLastwindowAVGBitrate->bitRate; 
} 


这 样 取出 来 的 compressAVGBitrate 和 sendAVGBitrate 就 代表 了 同一 
个 时 间 段 内 的 压缩 码 率 和 发 送 码 紊 。 我 们 的 目的 就 是 按照 发送 码 率 反 
馈 给 编码 器 来 调整 压缩 码 率 ， 而 得 到 的 这 两 个 值 只 是 一 个 时 间 窗 口内 
的 值 ， 有 可 能 这 段 时 间 内 发 生 了 网 络 抖动 ， 不 能 仅 使 用 这 个 值 去 盲目 
地 设置 编码 器 的 码 率 。 比 较 稳 妥 的 策略 是 设置 一 个 周期 ， 比 如 5 个 窗口 
的 时 间 长 度 ， 然 后 使 用 几 个 窗口 的 发 送 平均 码 率 去 设置 直到 编码 器 改 
变 码 率 。 但 是 这 种 案 上 略 只 能 作为 降 码 率 的 条 件 ， 因 为 这 种 统计 方式 统 
计 出 来 的 发 送 码 率 不 可 能 会 大 于 压缩 码 率 ， 发 送 模块 发 送 的 数据 量 不 
可 能 多 于 编码 絮 编 码 出 来 的 H264 数 据 的 数据 量 。 因 此 ， 如 果 想 要 做 到 
升 码 率 ， 就 需要 在 策略 中 加 上 当前 H264 队 列 大 小 的 变化 趋势 ， 比 如 队 
列 大 小 一 直 在 0O 和 1 之 间 进 行 变化 ， 则 代表 编码 如 编码 出 来 一 个 视频 
幅 ，Publisher 模 块 就 立马 将 它 发 送出 去 ， 这 时 我 们 就 可 以 演 试 去 上 升 码 
率 ; 如 采 队 列 的 变化 趋势 在 队列 大 小 的 10% 一 70% 范 围 内 徘徊 ， 则 代表 
有 可 能 网 络 发 生 撑 动 ， 用 户 端 可 能 会 出 现 卡 顿 ， 延 迟 在 慢 慢 增 大 ， 可 
以 暂时 不 做 任何 处 理 ， 如 采 队 列 趋势 一 直 在 70% 以 上 ， 说 明 Publisher 模 
块 不 足以 将 编码 絮 编 码 出 来 的 视频 幅 发 送出 去 ， 这 时 就 应 该 将 前 面 得 
出 的 这 个 周期 的 平均 发 送 码 率 作 用 到 编码 器 。 在 大 部 分 场景 中 ， 升 码 
率 一 般 都 会 比较 保守 ， 可 以 称 之 为 “ 慢 慢 升 ?>， 降 码 率 相对 于 升 码 率 来 


讲 可 以 快速 ， 可 以 称 为 “快速 降 "， 这 两 种 策略 结合 称 为 目 适 应 人 码 率 筑 
略 ， 这 个 集 上 略 可 增加 整个 直播 过 程 的 流畅 度 。 


3. 实 时 改变 编码 器 的 码 率 


系统 中 使 用 的 编码 絮 可 以 有 三 种 ， 即 iOS 平 台 使 用 VideoToolbox 来 
编码 视频 ，Android 平 台 使 用 MediaCodec 或 FFmpeg (使 用 libx264) 来 编 
码 视频 。 


(1) VideoToolbox 动 态 码 率 设 置 


使 用 VideoToolbox 和 硬件 编码 器 API， 对 系统 的 要 求 必 须 是 iOS 8.0 以 
上 。 对 于 Video-Toolbox 的 动态 码 率 设置 比较 简单 ， 直 接 对 编码 右 会 话 
设置 码 率 与 fps 就 本， 代码 如 下 : 


- (void) settingMaxBitRate: (int)maxBitRate avgBitRate:(int)avgBitRate 
fps:(int)fps; { 
VTSessionSetProperty(EncodingSession， 
kVTCompressionPropertyKey_MaxKeyFrameInterval， 
( bridge CFTypeRef)(@(fps))); 
VTSessionSetProperty(EncodingSession， 
kVTCompressionPropertyKey_ExpectedFramerRate, 
( bridge CFTypeRef)(@(fps))); 
VTSessionSetProperty(EncodingSession， 
kVTCompressionPropertyKey_DataRateLimits, 
(__bridge CFArrayRef )@[@(maxBitRate / 8), @1.0]); 
VTSessionSetProperty(EncodingSession， 
kVTCompressionPropertyKey_AverageBitRate, 
(__bridge CFTypeRef )@(avgBitRate)); 


(2) MediaCodec 动 态 码 率 设 置 


使 用 MediaCodec 和 硬件 编码 器 API， 对 于 系统 的 要 求 必 须 是 Android 
4.3 以 上 。 在 Android 系 统 4.4 以 上 提供 了 使 用 Bundle 形 式 动态 配置 编码 絮 
内 部 参数 的 API， 代 码 如 下 : 


Bundle bitRateBundle = new Bundle(); 
bitRateBundle.putInt(MediaCodec.PARAMETER_KEY_VIDEO_BITRATE, targetBitRate); 
mEncoder .setPparameters(bitRateBundle) 


这 种 方法 在 笔者 测试 的 过 程 中 ， 效 琳 非 第 奔 ， 很 多 设备 只 要 一 改 
变 码 率 ， 视 频 质 量 束 会 立即 下 降 ， 所 以 不 建议 大 家 使 用 。 笔 者 给 出 的 


建议 是 这 样 的 ， 如 果 设 备 是 5.0 系 统 以 上 ， 系 统 为 MediaCodec 提 供 了 一 
个 reset 方 法 ， 调 用 这 个 方法 之 后 就 可 以 去 重 狐 配 置 各 个 参数 ， 最 后 把 
重新 创建 出 来 的 Surface 类 型 的 MediaCodec 的 InputSurface 传 到 底层 ， 创 
建 出 EGLDisplay， 然 后 进行 编码 操作 ， 代 码 如 下 : 


public void reConfig(int width, int height, int bitRate, int frameRate) 
throws Exception { 
If (Build.VERSION.SDK_INT >= Build.VERSION_ CODES.LOLLIPOP) { 
try 1{ 
if (mEncoder != null) { 
mEncoder .reset(); 


MediaFormat format = MediaFormat.createVideoFormat (MIME_TYPE, 
width, height); 

format .SetInteger(MediaFormat ,KEY_COLOR_FORMAT， 
MediaCodecInfo.CodecCapabilities.COLOR FormatSurface); 

format.setIinteger (MediaFormat .KEY_BIT_RATE, 
bitRate - MEDIA CODEC_NOSIE_ DELTA); 

format.setIinteger (MediaFormat.KEY_FRAME_RATE, frameRate); 

format.setIinteger (MediaFormat.KEY_CAPTURE_RATE, frameRate); 

format.setIinteger(MediaFormat.KEY_I_FRAME_INTERVAL, IFRAME_INTERVAL ) ， 

mEncoder .configure(format, null, null, 
Mediacodec.CONFIGURE_FLAG_ENCODE ) ， 

mInputSurface = mEncoder ,createInputSurface() 

mEncoder ,Start() 

} catch (Exception e) { 
throw e; 


} 
} else { 

throw new UnMatchedException(" 系 统 版 本 不 匹配 " ) ; 
} 


} 


上 述 代码 比较 人 简单， 首先 要 判断 设备 的 系统 Android 的 版 本 代号 在 
Lollipop (5.0 系 统 ) 之 上 ， 然 后 调用 reset 方 法 ， 之 后 重新 配置 编码 器 ， 
一 定 要 重 狐 获取 这 个 编码 器 的 InputSurface， 最 终 调用 start 方 法 。 如 果 
设备 的 系统 版 本 不 在 5.0 以 上 ， 那 么 就 完 销毁 整个 编码 器 ， 人 然后 以 重新 
建立 编码 器 的 方式 来 达到 动态 设置 码 率 与 fps 的 需求 。 相 比较 而 言 ， 第 
二 种 方法 的 开销 会 比较 大 ， 但 是 对 于 版 本 在 5.0 系 统 以 下 的 设备 来 说 ， 
这 也 是 唯一 的 一 种 方法 。 


(3) FFmpeg 动 态 码 率 设置 
虽然 使 用 了 FFmpeg 来 进行 软件 编码 ， 但 是 其 内 部 还 是 使 用 libx264 


来 实现 的 。 所 以 设置 动态 码 率 时 ， 最 终 还 是 会 调用 到 libx264 库 中 的 动 
态 改 变 码 率 ， 通 过 查看 FFmpeg 有 的 源码 文件 libx264.c 可 以 知道 ， 要 想 调 


用 到 libx264 库 的 reconfig 方 法 ， 需 要 改变 rc_buffer_size 变 量 ， 人 代码 展示 
如 下 : 


if (x4->params.rc.i vbv_buffer_size != ctx->rc_buffer_size / 1000 || 


x4->params.rc.i vbv_max_bitrate != ctx->rc_max_rate / 1000) { 
x4->params.rc.i vbv_buffer_size = ctx->rc_buffer_size / 1000; 
x4->params.rc.i vbv_max_bitrate = ctx->rc_max_rate / 1000; 
x264_encoder_reconfig(x4->enc, &x4->params); 

} 


这 对 FFmpeg 的 版 本 是 有 一 定 要 求 的 ， 在 FFmpeg 的 2.1 版 本 中 是 不 
文 持 libx264 的 动态 改变 码 率 的 ， 而 上 述 这 段 代 码 摘 目 FFmpeg 的 2.8.5 版 
本 的 libx264.c 源 码 文 件 中 。 所 以 客户 端的 代码 如 下 : 


void VideoX264Encoder::reConfigure(int bitRate) { 
pCodeccCtx->rc_max_rate = bitRate; 
pCodeccCtx->rc_min_rate = bitRate; 
pCodeccCtx->rc_buffer_size = bitRate * 3,; 
pCodecctx->bit_rate = bitRate; 

} 


如 采 调 用 上 述 代 码 ， 束 可 以 达到 使 用 软件 编码 兹 动态 改变 码 率 的 
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至 此 ， 分 析 完 了 最 后 一 个 模块 。 表 回顾 整个 流程 ， 青 先 使 用 码 率 
监测 和 模块， 将 编码 右 编 码 出 来 的 视频 平均 码 率 和 Publisher 发 送 的 平均 码 
率 统计 出 来 ,然后 根据 这 两 个 码 率 再 加 上 这 一 段 时 间 内 的 队列 变化 趋 
势 得 出 一 个 合适 的 编码 器 应 该 编码 的 码 率 (有 可 能 比 当前 编码 器 的 码 
率 设置 要 高 一 些 ， 也 有 可 能 低 一 些 ) ; 最 后 将 这 个 码 率 设 置 给 编码 
鲁 。 如 何 让 编码 右 在 运行 过 程 中 动态 设置 码 率 ， 我 们 也 给 出 了 详尽 的 
解释 。 按 照 以 上 思路 ， 读 着 可 以 去 完成 目 己 产品 中 的 目 适应 码 率 策 
略 ， 也 可 以 参考 代码 仓库 中 的 源码 ， 以 便于 深入 理解 。 


12.2.2 ”统计 数据 保证 后 续 的 应 对 荣 略 


本 太 整 理 推 流 端 应 该 统计 哪些 数据 ， 以 便 给 开发 部 门 和 产品 部 门 
提供 后 续 迭 代 的 方向 ， 给 运 各 部门 提 供 数 据 的 文 持 。 在 真正 开始 统计 
推 流 端 业务 场景 下 的 数据 之 前 ， 首 移 妥 把 主播 应 的 了 也 地址 、CDN 推 流 
方太 服务 句 的 地 址 以 及 主播 的 ID 作 为 统计 数据 的 基本 信息 。 在 12.1 
中 总 结 了 以 下 要 统计 的 数据 ， 其 中 包括 开始 直播 时 间 、 连 接 CDN 推 流 
节操 服务 器 的 连接 时 长 、 推 流 时 长 与 推 流 平均 码 率 、 丢 帧 率 、 目 动 升 
降 码 率 的 变动 表 等 。 下 面 介 绍 如 何 统计 这 些 参数 ， 以 及 这 些 参 数 有 什 
么 作用 。 首 先 ， 定 义 PublisherStatistics 类 将 这 些 参数 以 及 这 些 参数 的 操 
作 封 装 起 来 ， 代 码 如 下 : 


class Pub]lisherStatistics { 
private: 
long long startTimeMills; 
int connectTimeMills; 
int pub1lishDurationInSec ， 


int totalPpushVideoFrameCcnt,; 

int discardVideoFrameCcnt; 

float publishAVGBitRate,; 
public: 


Publisherstatistics(); 

~PublisherStatistics(); 

void connectSuccess(); 

void discardVideoFrame(int discardVideoPacketSize),; 

void pushVideoFrame( ); 

void stopPublish(); 

char* getAdaptiveBitrateChart(); 

long long getStartTimeMills(){ 
return startTimeMills,; 

}; 

int getConnectTimeMills(){ 
return connectTimeMills,; 


}; 
int getPublishDurationInSsec(){ 
return publishDurationInsec,; 


六 
float getDiscardFrameRatio() { 
if(totalpushVideoFrameCnt > 0){ 
return (float) discardVideoFrameCnt / (float) totalpushVideoFrameCnt; 
} else { 
return ©; 


}; 
float getPublishAVGBitRate( ){ 
return publishAVGBitRate,; 


}; 
float getExpectedBitRate( ){ 
return expectedBitRate,; 


这 个 类 的 方法 比较 简单 ， 属 于 对 属性 的 操作 。 至 于 每 个 参数 的 意 
义 以 及 如 何 赋值 ， 下 面 会 依次 给 出 解释 。 


1. 开 始 直 播 时 间 


当主 播 点 击 开 播 的 那个 时 刻 ， 我 们 束 记 录 从 1970 年 1 月 1 日 起 以 室 
秒 为 单位 的 绝对 时 间 戳 。 记 录 这 个 时 间 惟 的 含义 在 于 ， 可 以 在 后 台 画 
出 主播 开播 时 间 点 的 分 布 曲线 ， 针 对 主播 的 开播 时 间 点 ， 运 营 和 客服 
可 以 更 合理 地 分 配 时 间 去 啊 应 主播 的 一 些 需求 ， 开 发 人 员 也 可 以 更 大 
力度 车 在 主播 直播 分 布 最 多 的 时 间 段 内 测试 CDN 太 商 的 链 路 分 配 以 及 
啊 应 速度 。 要 说 明 的 是 ， 在 初始 化 这 个 类 的 构造 函数 中 就 对 变量 
startTimeMills 进 行 赋值 了 了。 


2. 连 接 服 务 右 时 长 


由 于 协议 层 (Protocol Layer) 使 用 的 是 FFmpeg 的 libavformat 模 
块 ， 所 以 统计 连接 时 长 束 在 调用 RecordingPublisher 类 的 init 方 法 执行 结 
束 之 后 调用 connectSuccess 方 法 即 可 。 如 有 果 想 统计 得 更 加 精确 ， 惑 在 
init 方 法 调用 FFmpeg 的 avio_open2 方 法 之 前 初始 化 PublisherStatistics 
类 ， 之 后 调用 connectSuccess 方 法 来 统计 以 训 秒 为 单位 的 时 间 差 ， 并 以 
此 作为 连接 时 长 。 这 个 连接 时 长 包括 主播 端的 网 络 进行 DNS 解析 的 时 
间 和 拿 到 了 地 址 之 后 连接 CDN 商 的 推 滨 节 点 服务 万 的 时 间 ， 有 助 于 
开发 人 员 分 析 当 前 主播 的 网 络 和 CDN 商 分 配 的 链 路 节点 是 否 合理 。 


3. 推 流 时 长 与 推 流 平均 码 率 


推 流 时 长 代表 主播 本 场 直 播 的 时 间 ， 我 们 可 以 在 整个 Muxer 

(Publisher) 模块 的 stop 方 法 中 调用 stopPublish 方 法 ， 这 样 就 可 以 取出 
当前 时 间 戳 ， 并 减 去 开始 推 流 时 间 崔 ， 从 而 得 到 推 流 时 长 。 当 然 ， 在 
stopPublish 方 法 中 也 可 以 计算 出 推 流 的 平均 码 率 信息 。 而 推 流 时 长 和 
平均 码 率 的 信息 也 是 非常 有 意义 的 ， 能 从 一 定 程 度 上 说 明 这 个 主播 的 
网 络 情况 。 针 对 平均 码 率 ， 我 们 可 以 建议 主播 更 换 网 络 (如 果 是 小 运 
营 商 的 话 )  ， 或 者 找 CDNJ 商 分 配 更 合理 的 推 流 和 点 ;针对 推 流 时 
长 ， 运 营 人 员 可 以 做 一 些 活动 来 刺激 优质 主播 ， 以 提升 推 流 时 长 ， 从 
而 增加 社区 的 内 容 ， 增 加 社区 的 活跃 。 


4. 丢 帧 率 


丢弃 的 视频 帧 的 数目 占 整 场 直播 总 视频 帧 数目 的 比例 ， 每 次 有 一 
帧 视频 帧 被 编码 出 来 之 后 就 调用 pushVideoFrame 方 法 ， 里 面 的 
totalFrameCnt 则 加 一 ， 待 丢弃 一 个 GOP (也 有 可 能 是 GOP 的 后 半 部 
分 ) 之 后 ， 就 以 丢掉 的 帧 数目 作为 参数 调用 discardVideoFrame 方 法 ， 
这 个 方法 内 部 会 将 discardFameCnt 加 上 这 个 丢 帧 的 数目 ， 最 终 使 用 
discardFrameCnt 除 以 totalFrameCnt 计 算出 丢 帧 率 。 丢 帧 率 也 是 反应 主 
播 网 络 与 链 路 选择 以 及 CDNJ 商 推 流 节 点 的 一 个 指标 ， 拿 这 个 指标 去 
和 CDN) 商 交 涉 ， 以 减 小 丢 帧 率 ， 达 到 流畅 播放 的 目的 。 当 然 ， 这 和 
目 动 升降 码 率 系统 也 有 关系 ， 这 个 指标 也 有 助 于 开发 人 员 优 化 升降 码 
率 系统 的 策略 ， 以 降低 丢 帧 率 这 一 指标 。 


5. 目 动 升降 码 率 变 动 表 


由 于 我 们 为 系统 加 入 了 目 适 应 码 率 模块 ， 为 了 能 对 这 个 目 适 应 码 
率 模 块 有 一 个 评 佑 ， 便 于 后 续 开 发 人 员 继续 迭代 优化 这 个 模块 ， 因 此 
需要 把 作用 到 编码 器 的 码 率 变化 情况 统计 下 来 ， 上 报 给 服务 右 。 在 后 
台 可 以 使 用 图 表 展 示 编 码 器 编码 的 平均 码 率 与 Publisher 发 送 的 平均 码 
率 的 变化 趋势 ， 便 于 开发 人 员 从 时 间 调 整 周 期 、 码 率 调整 范围 等 方面 
优化 目 适 应 码 率 模块 。 


至 此 ， 分 析 完 了 所 有 的 统计 参数 ， 读 者 可 以 依据 目 己 的 产品 场景 
加 入 与 目 己 业 务 相 关 的 统计 参数 ， 以 增强 系统 的 流畅 性 与 稳定 性 。 


12.3” 拉 流 闹 的 关键 处 理 


上 一 市 中 针对 推 流 端 在 实际 生产 过 程 中 直到 的 问题 进行 了 修复 ， 
并 且 为 了 给 后 续 的 类 代 以 及 运营 活动 提供 数据 支持 ， 增 加 了 推 流 端 的 
数据 统计 。 本 市 针对 拉 流 端的 实际 问题 提出 具体 的 解决 方案 ， 并 且 也 
ee ， 请 读者 市 看 12.1T 中 对 于 拉 流 端 提 出 的 问题 开始 
节 的 学 习 吧 。 


12.3.1 重 试 机 制 的 实践 


由 于 拉 流 播放 器 的 媒体 资源 在 网 络 上 ， 因 此 有 可 能 会 出 现在 调用 
find_stream_info 函 数 之 后 ， 这 个 视频 中 的 Stream 还 是 会 解析 不 出 正确 
的 格式 。 命 令 行 工具 的 fftmpeg 或 者 ffplay 去 下 载 或 者 播放 网 络 流 的 时 
候 ， 如 果 不 能 解析 出 正确 的 格式 ， 展 示 的 错误 提示 如 下 : 


Could not find codec parameters for Stream © : reason XXX 
Consider increasing the value for the 'analyzeduration' and 'probesize' 
options. 


这 人 句 错 误 提 示 的 含义 是 说 ， 不 能 够 找 出 第 一 (二 ) 个 流 ， 原 因 可 
能 有 很 多 种 ; 它 提 示 我 们 应 该 增加 analyzeduration 和 probesize 选 项 的 
值 。 在 命令 行 工 具 中 可 以 使 用 以 下 命令 行 来 查看 这 几 个 参数 代表 的 意 
义 : 


ffmpeg -h full | grep probe 
在 终端 键入 上 述 这 行 命令 之 后 ， 则 可 以 看 到 如 下 关键 信息 : 


-probesize : set probing size (from 32 to INT_MAX) (default 5e+06) 

-analyzeduration : specify how many microseconds are analyzed to probe the 
input (from © to INT_MAX) (default 5e+06) 

-fpsprobesize : number of frames used to probe fps (from -1 to 2.14748e+09) 
(default -1) 


以 上 代码 中 有 三 个 主要 参数 可 以 留 给 我 们 设置 ， 且 这 三 个 参数 共 
同 用 来 控制 FFmpeg 的 libavformat 模 块 中 的 av_find_stream_info 方 法 的 执 
行 时 长 。 第 一 个 参数 是 probesize， 它 从 连接 通道 (当前 场景 就 是 网 络 
流 ) 中 读 出 多 少 个 字 节 层面 来 控制 函数 是 否 结束 ， 即 如 果 从 通道 中 读 
出 的 AVPacket 字 广 量 大 于 设置 的 probesize 这 个 值 ， 就 结束 
find_stream_info 这 个 函数 ;第 二 个 参数 是 analyzeduration， 它 从 解码 出 
来 的 帧 的 时 间 长 度 层 面 来 控制 函数 是 否 结束 ， 即 如 采 从 通道 中 读 出 来 
的 AVPacket 解 码 之 后 的 时 间 长 度 大 于 analyzeduration， 则 结束 这 个 画 
数 ， 单 位 是 微 秒 ， 第 三 个 参数 是 fpsprobesize， 它 从 解码 出 来 的 帧 数目 


角度 来 控制 钞 数 是 否 结束 ， 上 默认 值 是 -1。 如 采 开 发 人 员 不 进行 设置 ， 

函数 内 部 会 赋值 默认 值 为 20。 所 以 在 命令 行 工具 (无 论 是 fftmpeg 还 是 
ffplay) 中 都 可 以 设置 这 三 个 参数 来 控制 寻找 流 信息 的 时 间 ， 而 在 开发 
人 员 编 写 代码 的 过 程 中 ， 同 样 也 可 以 进行 设置 ， 代 码 如 下 : 


AVFormatContext *pFormatCtx; 
pFormatCtx->max_analyze_duration = 20 * 1024; 
pFormatCtx->probesize = 2048; 
pFormatCctx->fps_probe_size = 3; 


一 般 可 以 拿 上 述 参 数 去 初始 化 目 己 的 AVFormatContext， 这 样 既 可 
以 保证 能 解析 出 流 ， 还 能 让 时 间 消 耗 得 比较 少 。 但 是 ， 如 果 们 到 一 些 
比较 高 码 率 的 流 或 者 这 些 参数 设置 得 过 小 ， 就 会 导致 解析 不 到 正确 的 
流 信息 。 那 如 何 来 判断 是 否 正 确 地 解析 到 流 信息 了 呢 ? 笔者 在 FFmpeg 
的 libavformat 模 块 的 utils.c 文 件 中 找到 了 一 份 代码 ， 可 判断 流 信息 是 否 
解析 成 功 ， 它 的 实现 就 是 要 授 历 出 这 个 Container 中 的 音频 流 和 视频 
流 。 首 移 来 看 音频 流 ， 代 码 如 下 : 


AVCodecContext *audioCodecCtx = audioStream->codec 

If (!audioCodecCtx->frame_size && determinable frame_ size(audioCodecCtx)) 
FAIL("unspecified frame size"); 

if (!audioCodecCtx->sample_rate) 
FAIL("unspecified sample rate"); 

if (!audioCodecCtx->channels) 
FAIL("unspecified number of channels"); 

If (audioCodecCtx->sample_fmt == AV_SAMPLE_FMT_NONE) 
FAIL("unspecified sample format"); 

If (audioCodecCtx->codec_id == AV_CODEC_ID_DTS) 
FAIL("no decodable DTS frames"); 

If (audioCodecCtx->codec_id == AV_CODEC_ID_NONE) 
FAIL("unknown codec"); 


上 述 代 码 分 别 对 音频 编码 器 上 下 文中 的 各 个 信息 给 出 了 判断 ， 如 
全 则 会 调用 FAIL 方 法 。 其 中 FAIL 是 定义 的 一 个 宏 ， 安 
定义 如 下 : 


#define FAIL(errmsg) do { \ 
printf("%s", errmsg); \ 
return 0; \ 

} while (0) 


个 安 中 会 输出 这 条 错误 信息 ， 并 且 返 回 0， 代 表 解 析 流 信息 失 
败 。 接着 下 看 视频 流入 息 的 判定 代码 如 下 : 


If (!avctx->width) 
FAIL("unspecified size"); 
If (avctx->pix_fmt == AV_PIX_FMT_NONE) 
FAIL("unspecified pixel format"); 
If (st->codec->codec_id == AV_CODEC_ID_RV30 || 
st->codec->codec_id == AV_CODEC_ID_RV40) 
If (!st->sample_aspect_ratio.num && !st->codec->sample _ aspect_ratio.num 
&& !St->codec_info_nb_frames) 
FAIL("no frame in rv30/40 and no sar"); 


If (audioCodecCtx->codec_id == AV_CODEC_ID_NONE) 
FAIL("unknown codec"); 


当 openInput 函 数 返回 0 的 时 候 ， 代 表 可 能 由 于 这 三 个 参数 的 值 设 
置 过 小 而 导致 解析 流 信 息 出 现 了 错误 ， 所 以 需要 重 试 。 过 程 如 下 : 首 
先天 闭 连 接 通 道 ， 并 释放 AVFormatContext， 然 后 重新 执行 openInput 男 
数 。 在 重 试 的 过 程 中 ， 可 以 增加 probesize 的 值 ， 然 后 执行 
find_stream_info 函 数 。 我 们 可 以 对 重 试 的 次 数 做 一 个 限制 ， 比 如 ， 考 
重 试 3 次 还 是 无 法 找到 正确 的 流 信息 ， 那 么 束 提 示 客 户 端 寻找 流 信息 失 
0 读者 可 以 参考 代码 仓库 中 的 源码 ， 然 后 应 用 到 上 自己 的 实际 产品 


12.3.2” 首 屏 时 间 的 保证 


在 一 个 直播 App 中 ， 观 众 端 最 直观 的 体验 就 是 首 屏 时 间 的 时 长 。 首 
屏 时 间 指 的 是 从 观众 点 击 一 个 房间 开始 ， 到 看 到 这 个 房间 内 主播 的 画 
面 以 及 听 到 主播 声音 的 时 间 。 首 屏 时 间 越 短 ， 产 品 越 流 畅 ， 体 验 也 越 
好 。 因 此 ， 如 何 缩短 诈 屏 时 间 成 为 一 个 直播 App 必 须 持 续 优 化 的 问题 ， 
而 这 也 是 笔者 在 本 广 要 和 大 家 讨论 的 问题 。 


目 先 来 看 拉 流 播放 右 的 整体 架构 图 ， 如 图 12-3 所 示 。 


VideoOutput 维护 线程 ， 
接受 到 泻 染指 令 ， 利 用 
回调 函数 获取 视频 帧 


NA 
VideoPlayerController 1: 维护 解码 线程 Input 
:init 2: 负责 同步 策略 人 :完成 协议 解析 与 解 封装 操作 


2:start 3: 负责 队列 维护 2: 使 用 软件 或 硬件 解码 器 解码 
3:destroy E> > 
4:audioCallback Audio Audio Decoder Demuxer Protocol 
5:videoCallback Queue Queue 


AudioOutput 维护 线程 
利用 回调 函数 获取 数据 


图 12-3 


在 图 12-3 中 ， 最 左边 是 VideoOutput 和 AudioOutput 模 块 ， 其 内 部 由 
目 己 维护 线程 来 泻 染 视频 画面 与 首 频 数据 ， 整 个 播放 流程 是 由 
AudioOutput 玉 驱动 的 ， 当 AudioOutput 播 放 一 幅 音 频 帧 时 ， 就 会 癌 
VideoPlayerController 中 audioCallback 方 法 发 出 请 求 ， 让 它 来 填充 音频 数 
据 。 竺 填充 好 音频 数据 之 后 ， 就 发 送 一 个 指令 给 VideoOutput 模 块 ， 让 
它 来 演 染 视频 画面 ， 当 VideoOutput 接 收 到 这 个 指令 之 后 ， 会 癌 
VideoPlayerController 中 的 videoCallback 方 法 发 出 请 求 ， 拿 一 帧 与 当前 播 
放 的 首 频 帧 对 齐 的 画面 ， 然 后 进行 渲染 。 最 右 侧 是 Input 模 块 ， 人 负责 协 
议 解 析 ， 解 封装 ， 最 终 使 用 软件 或 者 硬件 解码 器 将 音 视 频 流 解析 为 原 
始 的 格式 ， 而 它 的 客户 端 代码 就 是 AVSync 模 块 。AVSync 模 块 是 为 了 做 
音 视 频 同 步 的 ， 但 是 ， 首 先 它 得 维护 一 个 线程 和 音 视 频 队 列 ， 并 负责 
调用 mput 模 块 将 视频 流 最 终 解 码 成 为 音 视 频 的 原始 数据 ， 然 后 放 入 两 


个 队列 中 ， 以 便 向 外 提供 获取 音频 数据 的 方法 和 获取 视频 帧 的 方法 ， 

其 中 音 视 频 同步 策略 放 在 获取 视频 帧 的 方法 中 ;而 
VideoPlayerController 束 是 核心 控制 器 类 ， 会 控制 AudioOutput 模 块 、 
VideoOutput 模 块 、AVSync 模 块 等 所有 组 件 的 生命 周期 。 这 束 古 整个 播 
0 ， 下 面 束 对 照 这 个 以 构图 来 分 析 如 何在 整个 流程 中 加 快 诈 
开 时 间 。 


首先 ， 要 尽快 让 Input 模 块 完成 find_stream_info 过 程 ， 否 则 永远 不 
会 进入 后 续 的 解码 过 程 甚至 后 续 的 泻 染 过 程 ， 也 束 不 可 能 让 用 户 听 到 
声音 和 看 到 画面 了 。 所 以 要 对 FFmpeg 的 AVFormatContext 设 置 如 下 参 
数 : 


AVFormatContext *pFormatCtx 
pFormatCtx->max_analyze_duration = 20 * 1024; 
pFormatCctx->probesize = 2048; 
pFormatctx->fps_probe_size = 3; 


当然 ， 设 置 这 些 参数 加 快 了 find_stream_info 方 法 的 执行 时 间 ， 但 
是 有 可 能 (概率 比较 低 ) 导致 解析 出 来 的 流 没 有 正确 的 信息 ， 但 12.3.1 
廊 中 已 经 给 出 了 重 试 机 制 ， 可 以 保证 这 种 异常 情况 正确 解决 。 这 个 设 
置 也 是 直播 播放 器 与 录 播 播放 器 不 同 的 地 方 ， 由 于 录 播 视频 进行 播放 
时 肯定 从 第 一 帧 视频 帧 展示 给 用 户 ， 而 第 一 帧 又 是 关键 帧 ， 所 以 可 以 
很 快 解码 出 视频 帧 ， 而 对 于 直播 的 视频 ， 拉 流 播放 器 不 一 定 在 哪 一 帧 
连接 上 来 ， 所 以 需要 客户 问 和 CDNJ 商 做 优化 ，CDN 商会 缓存 关键 
帧 ， 尽 量 快 地 把 关键 帧 给 到 拉 流 播放 硕 。 


然后 要 尽快 局 动 播 放 需 ， 当 观众 端点 击 某 个 主播 的 房间 时 束 调 用 
播放 器 的 init 方 法 ， 而 页 面 的 跳 转 也 需要 100ms 到 500ms 的 时 间 (实际 场 
景 中 可 能 会 是 一 个 动画 ) 。 当 跳 转 页 面 完成 的 时 候 ， 播 放 器 早已 完成 
了 初始 化 和 解码 前 几 帧 视频 帧 的 工作 ， 直 接 可 以 进行 泻 染 了 。 但 是 在 
这 种 场景 下 ， 需 要 播放 器 具备 一 种 特性 ， 即 没有 页 面 也 可 以 播放 视频 
中 的 音频 ， 如 果 播 放 器 现在 不 支持 ， 则 需要 改进 成 这 种 结构 ， 因 为 这 
种 结构 对 于 后 续 的 扩展 (比如 小 窗 播放 器 等 功能 是 非常 有 益 的 。 由 
于 目前 VideoOutput 组 件 的 初始 化 被 硝 合 到 VideoPlayerController 的 Init 方 
， 所 以 要 将 VideoOutput 组 件 的 初始 化 与 整个 播放 器 的 初始 化 分 


1.Android 平 台 播 放屁 的 预 加 载 


在 Android 平 台 显 示 部 分 使 用 的 是 SurfaceView， 依 靠 SurfaceView 设 
置 的 Callback 中 的 生命 周期 方法 ， 将 Surface 传 递 到 Native 层 构造 出 
ANativeWindow， 然 后 构建 成 为 EGLDisplay， 最 终 由 OpenGL ES 演 染 上 
去 。 之 前 的 播放 器 初始 化 也 是 由 SurfaceView 设 置 的 Callback 中 的 生命 周 
期 方法 onSurfaceCreate 来 触发 的 ， 而 此 次 要 改造 播放 器 的 最 终结 构 ， 并 
脱离 SurfaceView 的 生命 周期 控制 。 


首先 在 VideoPlayerController 公 布 init 接 口 方法 : 


bool init(char *URL，JavavM *g_jvm, jobject obj); 


这 个 方法 的 实现 开辟 了 一 个 新 线程 ， 并 在 这 个 线程 中 实例 化 
AVSync 后 调用 初始 化 方法 来 打开 流 ， 如 采 成 功 ， 则 实例 化 AudioOutput 
Re 音 开始 播放 ， 然 后 回调 客户 端 代码 表示 已 经 成 功 打 

人 


声音 播放 自然 会 回调 设置 给 AudioOutput 的 回调 函数 来 填充 音频 数 
据 ， 而 这 个 填充 音频 数据 的 方法 就 会 调用 AVSync 模 块 来 填充 首 频 数 
据 ， 同 时 判断 如 果 videoOutput 还 没有 被 设置 的 话 ， 则 不 调用 
videoOutput 的 signalFrameAvailable 方 法 ， 这 时 虽然 还 完全 没有 
人 参与 ， 但 播放 赂 已 经 可 以 播放 视频 中 的 音频 部 分 ， 代 码 
中: 


int VideoplayerController::fillData(byte* outData, size _t bufferSize) { 
int ret = bufferSize; 
if(this->isplaying && synchronizer) { 
ret = synchronizer->fillAudioData(outData, bufferSize); 
If (NULL != videoOutput){ 
videoOutput->signalFrameAvailable(); 


} 
} else { 
memset (outData, 0, bufferSsize); 


return ret; 


当 客 户 问 发 生 了 页 面 跳 转 ， 并 且 SurfaceView 已 经 显示 出 来 的 时 
候 ，Callback 的 生命 周期 方法 onSurfaceCreate 惑 会 被 触发 ， 此 时 客户 端 
调用 VideoPlayerController 中 的 onSurface-Create 方 法 ， 方 法 实现 如 下 : 


void VideoPplayerController::onSurfaceCreated(ANativewindow* window, 
int width, int height) { 
if (!videoOutput) { 
Videooutput = new VideoOutput(); 
videoOutput->initOutput(window, screenWidth, screenHeight, 
videoCallbackGetTex, this); 
}elsef 
videoOutput->onSurfaceCreated(window, screenwidth, screenHeight); 
} 
} 


如 果 是 第 一 次 进入 ， 则 会 构建 出 VideoOutput 类 型 的 实例 。 
VideoOutput 也 会 分 为 两 部 分 : 第 一 部 分 是 构造 VideoOutput 时 OpenGL 
ES 上 下 文 与 渲染 线程 ， 当 然 创 建 OpenGL 上 下 文 的 时 候 一 定 要 与 Input 模 
块 的 Uploader 共 享 OpenGL ES 上 下 文 ; 第 二 部 分 是 根据 ANative-Window 
构造 出 要 渲染 的 EGLDisplay 类 型 的 目标 。 在 VideoOutput 中 ， 
onSurfaceCreated 方 法 就 是 用 来 创建 泻 染 目标 EGLDisplay 的 。 


如 果 Activity 跳 转 到 了 别 的 子 页 面 (比如 充值 页 面 ) ，SurfaceView 
也 上 自然 会 消失 ， 这 时 Callback 的 生命 周期 方法 onSurfaceDestroyed 会 被 触 
发 ， 客 户 端 应 该 调用 VideoPlayer-Controller 中 的 onSurfaceDestroyed 方 
法 ， 方 法 实现 如 下 : 


void VideoPJlayerController::onSurfaceDestroyed() { 
if (videoOutput) { 
videoOutput->onSurfaceDestroyed( ); 
} 
} 


这 里 VideoOutput 公 布 的 onSurfaceDestroyed 方 法 是 销 贤 在 
onSurfaceCreated 方 法 中 构造 的 Renderer、EGLDisplay 和 根据 
SurfaceView 中 的 Surface 构 建 的 ANativeWindow。 注意 这 个 方法 并 不 会 
销毁 OpenGL ES 上 下 文 与 渲染 线程 ， 而 VideoOutput 提 供 的 stop 方 法 才 是 
彻底 销毁 VideoOutput 这 个 实例 ， 也 只 有 在 这 个 播放 亚 完 全 销毁 的 时 
候 ， 才 会 调用 VideoOutput 的 stop 方 法 。 


最 终 我 们 将 播放 融 改 造成 了 一 个 预 加 载 的 播放 硕 ， 同 时 也 脱离 了 
显示 界面 的 控制 ， 而 由 目 己 的 生命 周期 方法 来 控制 播放 融 状 在， 使 得 
客户 端 调用 更 加 方便 ， 同 时 也 为 后 续 小 窗口 播放 器 或 者 后 台 播 放 器 提 
供 了 基础 架构 。 


2.iOS 平 台 播 放 妖 的 预 加 载 


在 iOS 平 台 显示 部 分 是 目 定 义 一 个 UIView， 在 
VideoPlayerViewController 中 可 实例 化 这 个 UIView， 并 且 将 这 个 UIView 
的 实例 以 subView 的 形式 加 到 这 个 ViewController 中 。 一 般 情况 下 ， 都 是 
使 用 VideoPlayerViewController 中 的 初始 化 方法 来 实例 化 AVSync 并 且 调 
用 openFile 方 法 的 ， 如 采 成 功 打开 流 ， 束 拿 出 视频 的 宽 高 来 实例 化 
VideoOutput， 并 加 到 这 个 ViewController 上。 在 这 个 流程 中 ， 
VideoPlayerViewController 就 是 一 个 控制 项， 当 这 个 播放 器 界面 退出 的 
时 候 ， 或 要 把 整个 ViewController 中 分 配 的 资源 销毁 挥 ， 这 就 会 造成 整 
个 播放 妖 也 不 能 继续 播放 这 个 视频 ， 所 以 我 们 应 该 蛙 独 抽取 一 个 
VideoPlayerController 作 为 控制 器 ， 用 来 管理 AVSync 模 块 和 AudioOutput 
模块 ， 声 明 一 个 Protocol 用 来 执行 VideoOutput 的 渲染 操作 。 当 有 界面 可 
以 用 来 显示 视频 画面 的 时 候 ， 实 现 Protocol 里 面 的 方法 来 做 画面 泻 染 工 
作 ，Protocol 声 明 如 下 : 


@protocol PlayerVideooutputDelegate <NSObject> 

- (void) openInputSuccess:(NSInteger) textureFramewWidth textureFrameHeight: 
(NSInteger )textureFrameHeight usingHwCodec: (BOOL)usingHwCodec; 

- (void) signalRenderFrame: (VideoFrame*) videoFrame， 

@end 


在 VideoPlayerController 类 中 声明 这 个 Protocol 类 型 的 delegate， 然 后 
开放 出 一 个 方法 可 以 用 来 设置 delegate， 代 人 码 如 下 : 


@property (nonatomic, readwrite, copy) id<PlayerVideoOutputDelegate> 
videoOutputDelegate; 

- (void) setVideoOutputDelegate:(id<PlayerVideoOutputDelegate>) 
videoOutputDelegate; 


当然 ，VideoPlayerController 必 须 是 一 个 单 例 模式 设计 的 类 ， 因 为 
它 要 在 全 局 都 可 以 访问 到 ， 代 码 如 下 : 


+ (VideoPlayerController *) sharedPlayerController; 
{ 
static dispatch_once_t pred 
static VideoPlayerController *sharedPlayerController = nil; 
dispatch_once(&pred, ^{ 
sharedPlayerController = [[[self class] alloc] init]; 
}); 


了 
return sharedPlayerController,; 


当然 ， 最 重要 的 方法 是 playWithURL， 这 个 方法 的 实现 就 是 实例 化 
AVSync， 并 且 调 用 openFile 方 法 打开 流 ， 如 果 打 开 流 成 功 ， 残 调用 
videoOutputDelegate 的 openInputSuccess 方 法 (如 果 videoOutputDelegate 
已 经 被 设置 过 ) ， 接 着 实例 化 AudioOutput 组 件 ， 并 调用 AudioOutput 的 
开始 播放 方法 。 同 时 VideoPlayerController 要 实现 AudioOutput 组 件 中 的 
FillDataDelegate 协 议 ， 在 flAudioData 方 法 中 可 调用 AVSync 模 块 来 填充 
音频 数据 ， 同 时 癌 videoOutputDelegate 发 送 一 个 信号 要 求 VideoOutput 演 
染 画 面 (如 果 videoOutputDelegate 已 经 被 设置 过 ) 。 这 样 就 完成 了 整个 
视频 的 播放 。 如 果 videoOutputDelegate 没 有 被 设置 过 ， 依 然 可 以 播放 视 
频 中 的 声音 部 分 ， 而 当 有 一 个 界面 可 以 用 来 显示 视频 的 画面 部 分 时 ， 
那么 就 设置 videoOutputDelegate， 并 完成 泻 染 工作 。 如 果 后 续 要 做 小 窗 
口 播放 器 ， 其 至 是 后 台 播 放 有 的 时 候 ， 这 个 架构 依然 可 以 直接 使 用 。 


为 了 达到 秒 开 首 屏 的 极致 体验 ， 还 有 一 点 要 说 明 ， 在 Input 模 块 ， 
尽量 使 用 CDN 广 商 提 供 的 HDL 协议 ， 因 为 某 些 CDN 三 商 提 供 的 HDL 协 
议 对 于 推 流 端 仍然 向 一 个 RTMP 的 地 址 去 做 推 流 ， 而 分 发 给 观众 端的 地 
址 为 http 加 flv 的 格式 ， 这 种 格式 的 find_stream_info 执 行 的 时 间 要 比分 发 
的 rtmp 协 议 的 流 的 时 间 短 ， 所 以 尽量 采用 更 加 先进 的 协议 ， 并 且 大 部 
分 的 CDNJ 丙 也 做 了 关键 帆 的 缓存 ， 推 流 CDN 市 点 到 边缘 CDN 廊 点 使 
用 Push 的 方式 等 优化 ， 所 以 使 用 CDN 厂 商 要 比 自 建 机 房 好 很 多 。 


读者 可 以 结合 代码 仓库 中 的 源码 进行 分 析 ， 并 应 用 到 目 己 的 产品 


12.3.3 ”统计 数据 保证 后 续 的 应 对 荣 略 


在 12.2 节 已 经 分 机 了 推 流 端 应 该 要 做 的 数据 统计 ， 以 及 数据 统计 
对 产品 后 续 适 代 以 及 运 守 活动 的 作用 。 本 和 将 带 着 读者 来 完成 拉 流 播 
放 器 的 数据 统计 工作 。 首 先 要 把 观众 观看 的 直播 场次 、 观 众 端 的 IP 地 
址 以 及 观众 端 实际 去 拉 流 的 CDN 的 边缘 节点 地 址 作为 基本 信息 。 


1. 开 始 拉 流 时 间 


当 观 众 点 击 开 始 观 看 一 场 直播 的 时 候 ， 系 统 获取 当前 的 时 刻 作为 
开始 拉 流 的 时 间 ， 以 晕 秒 为 单位 ， 这 个 数据 可 以 在 后 合 绘制 出 观众 观 
看 直播 时 间 的 分 布 图 ， 也 有 助 于 运营 推广 活动 的 时 候 掌握 应 该 在 哪 一 
段 时间 段 内 进行 推广 。 此 外 ， 还 可 以 调整 客服 和 后 台 视 频 审查 的 人 员 


La 


安排 


2. 连 接 时 间 


用 户 端 发 起 一 次 Connect， 如 果 失 败 ， 直 接 上 报 ， 否 则 记录 
Connect 时 间 ， 单 位 为 训 秒 。 这 个 数据 有 助 于 开发 人 员 去 推动 CDN 商 
分 配 更 优质 的 下 点。 此 外 ， 还 可 以 与 前 面 的 观众 卫 地 址 一 块 分 析 是 否 
是 某 些小 运营 商 导 致 的 DNS 劫持 等 事件 。 统 计 方 式 可 以 在 
VideoDecoder 类 的 openInput 方 法 前 后 增加 时 间 统 计 ， 并 计算 时 间 差 得 
到 连接 时 间 的 值 。 


3. 目 屏 时 间 


从 用 户 点 击 某 个 主播 头像 开始 到 展示 出 第 一 帧 主播 视频 画面 的 时 
间 ， 这 其 实 是 观众 端 体验 的 一 个 重要 指标 。 肯 屏 时 间 越 短 ， 观 众 的 体 
验 就 越 好 。 可 以 根据 这 个 时 间 来 帮助 开发 人 员 进 一 步 优 化 观众 端的 体 
验 ， 并 可 以 针对 首 屏 时 间 长 的 观众 ， 进 一 步 分 析 到 讨 是 主播 端的 问题 
还 是 观众 端 网 络 的 问题 。 统 计 方法 束 是 当 第 一 由 视频 帧 被 演 染 出 来 的 
时 候 ， 将 当前 系统 时 间 减 去 开始 连接 的 时 间 ， 得 到 首 屏 时 间 。 


4. 观 看 时 长 


从 用 户 开始 观看 直播 开始 ， 到 用 户 退 出 本 次 观看 ， 会 有 一 个 观看 
时 长 ， 单 位 是 秒 。 当 然 ， 这 个 观看 时 长 跟 主 播 的 内 容 有 很 大 关系 ， 同 
时 也 跟 主 播 推 流 的 稳定 度 有 很 大 关系 ， 我 们 可 以 统计 同一 个 主播 在 不 
同 网 络 环境 下 推 流 的 观众 平均 观看 时 长 来 提示 主播 选择 优质 网 络 的 重 
要 性 ， 也 可 以 换 一 个 维度 去 统计 观众 观看 的 热门 直播 中 ， 平 均 时 长 最 
长 的 主播 有 哪些 ， 还 可 以 帮助 运 昔 人 员 租 选 出 平台 的 优质 红 人 。 


5. 卡 顿 次 数 


当 用 户 界 面 出 现 一 次 Loading 框 或 者 声音 卡 顿 时 ， 说 明 用 户 会 卡 顿 
一 次 。 用 户 卡 顿 越 少 ， 体 验 越 好 ， 这 个 次 数 也 应 该 上 报 给 服务 器 。 根 
据 用 户 的 卡 顿 次 数 ， 可 以 帮助 开发 人 员 分 析 本 场 直播 中 的 新 贷 到 底 在 
哪里 。 如 采 本 场 直 播 中 的 观众 端 都 出 现 了 10 次 以 上 的 卡 顿 ， 那 么 说 明 
有 可 能 是 主播 推 流 的 问题 ， 如 果 是 观众 端的 网 络 链 路 问题 ， 则 可 以 分 
析 能 否 去 优化 播放 器 的 策略 。 统 计 方 法 就 是 在 AVSync 模 块 的 
showLoading 方 法 中 增加 次 数 统计 。 


至 此 拉 流 端的 关键 策略 介绍 完毕 ， 读 者 可 以 去 代码 仓库 中 分 析 源 
码 ， 便 于 深入 理解 。 


12.4 本 草 小 结 


本 章 主要 介绍 了 一 个 企业 级 直播 产品 应 该 做 出 的 优化 与 关键 处 
理 。 首 先进 行 了 场景 分 析 并 提出 了 基本 的 解决 方案 ， 其 次 介绍 了 推 流 
端 (主播 问 ) 目 适 应 码 率 的 优化 方案 ， 并 针对 统计 数据 给 出 了 收集 方 
案 与 后 续 处 理 策略 ;最 后 针对 拉 流 端 〈 用 户 端 ) 的 秒 开工 作 制定 很 多 
策略 ， 同 时 也 介绍 了 统计 数据 的 收集 以 及 后 续 处 理 策略 。 


第 13 章 ” 工 欲 善 其 事 ， 必 爷 利 其 瑚 


工 欲 矢 其 事 ， 必 先 利 其 器 。 这 人 句 话 用 在 开发 人 员 的 工作 中 就 是 要 
把 自己 的 开发 工具 打磨 好 ， 这 样 才 可 以 在 工作 中 游 思 有余。 前 面 章 届 
中 提 到 过 的 ffmpeg、ffplay 就 属于 首 视频 开发 中 的 辅助 工具 ， 而 本 章 和 
大 家 一 起 讨论 音 视频 开发 中 和 常用 的 工具 ， 包 括 内 存 泄 漏 的 检测 工具 、 
Crash 收 集 的 工具 以 及 常用 的 ADB 等 工具 。 其 中 ， 有 些 工 具 并 不 仅仅 是 
针对 开发 人 员 的 ， 对 于 测试 人 员 也 非常 有 用 。 完 成 本 章 的 学 习 之 后 ， 
0 在 日 常 工作 中 肯定 可 以 提高 开发 以 及 调 
] 艺 夏 % 2 o 


13.1 _ Android 平台 工具 详 钥 


本 节 主 要 介绍 Android 平 台 下 的 浓 用 工具 ， 大 致 分 为 以 下 几 个 方 
面 : 如 何 使 用 ADB 的 各 个 命令 完成 电脑 和 开发 设备 的 交互 ;如何 使 用 
MAI 工 具 检 查 Java 端 的 内 存 油 漏 ， 如 何 使 用 工具 检查 Native 层 的 内 存 
泄漏 ， 如 何 使 用 NDK 的 各 个 工具 解决 编译 以 及 运行 中 的 问题 ， 如 何 使 
用 Google 开 源 的 breakpad 来 收集 Native 层 的 Crash。 其 中 ， 熟 练 掌握 
ADB 工 具 与 MAT 工 具 的 使 用 ， 对 于 测试 人 员 来 讲 可 以 提高 定位 问题 的 
准确 度 ， 对 提升 整个 团队 的 效率 是 非常 实用 的 。 


13.1.1 ADB 工 具 的 熟练 使 用 


ADB 的 全 称 是 Android Debug Bridge， 是 Google 给 开发 者 提供 的 一 
个 调试 桥 工 具 。 借 助 这 个 工具 ， 开 发 者 可 以 在 电脑 上 对 Android 设 备 进 
行 很 多 操作 ， 包 括 安装 / 印 载 App、 查 看 日 志 、 文 件 操 作 、 运 行 Shell 命 
令 等 。 其 实 ADB 就 是 连接 电脑 和 Android 设 备 的 桥梁 。ADB 工 具 是 
Android 的 SDK 目 孙 的 platform-tools 目 孙 下 的 一 个 命令 行 工 具 。 读 者 知 
想 要 在 命令 行 下 随意 使 用 这 个 工具 ， 则 需要 将 所 在 的 路 径 配 置 到 path 环 
境 变 量 中 。 下 面 以 Mac 系 统 为 例 ， 展 示 配 置 环境 变量 的 过 程 。 


Mac 的 环境 变量 配置 文件 是 用 户主 目录 下 的 .bash_profile 文 件 ， 如 
果 读 者 之 前 没有 配置 过 环境 变量 ， 那 么 系统 默认 是 没有 这 个 文件 的 ， 
需要 读者 自己 创建 ， 如 果 已 经 有 了 这 个 文件 ， 那 么 就 键入 以 下 内 容 : 


ANDROIDSDKROOT=sdkpath 
export PATH=$ANDROIDSDKROOT/platform-tools:$PATH 


其 中 ，sdkpath 是 Android SDK 所 在 的 路 径 ， 输 入 完毕 之 后 保存 并 退 
出 ; 然后 执行 以 下 作 令 : 


source ~/.bash_profile 


这 行 命 令 是 为 了 让 刚才 的 配置 生效 ， 如 果 不 执行 这 个 命令 ， 就 需 
要 重启 电脑 ， 让 系统 重新 加 载 这 个 配置 文件 。 此 时 党 试 输入 adb， 会 出 
现 ADB 这 个 命令 行 工具 的 众多 提示 。 


下 面 看 看 工作 中 利用 的 命令 。 首 移 我 们 要 了 解 在 电脑 上 是 否 运 行 


着 一 个 adb server， 它 是 用 来 连接 电脑 和 Android 设 备 的 ， 读 者 可 以 执行 
以 下 命令 : 


ps -A | grep adb 


这 行 命令 的 作用 是 列 出 adb 名 字 的 进程 ， 接 着 可 以 看 到 类 似 如 下 的 


提示 : 


2947 ttys004 0:00.04 adb -P 5037 fork-server server 


这 束 告 诉 我 们 现在 adb server 已 经 运行 起 来 了 ， 如 果 没 有 这 一 行 提 
示 ， 束 可 以 运行 以 下 命令 来 局 动 adb server: 


adb start-server 


这 时 再 查看 adb 名 字 的 进程 ， 可 以 看 到 adb server 正 在 运行 。 当 然 ， 
也 可 以 执行 以 下 命令 来 关闭 adb server: 


adb kill-server 


既然 讲 到 这 里 ， 就 需要 提 到 一 个 经 常 让 开发 者 疑惑 的 问题 ， 即 有 
一 些 Android 设 备 即 使 打开 了 开发 者 模式 也 连接 不 上 我 们 的 电脑 ， 这 是 
因为 adb server 不 认识 这 个 Android 设 备 的 USB 厂 商 ， 所 以 需要 把 USB 的 
厂商 ID 加 入 配置 文件 中 。 接 下 来 笔者 就 以 Mac 系 统 为 例 讲解 如 何 获 得 
USB 的 厂商 ID， 打 开关 于 本 机 ”， 然 后 选择 “系统 报告 >， 在 硬件 选项 中 
在 里 面 可 以 找到 目 己 的 设备 ， 然 后 点 击 找 到 厂商 ID， 如 

13-1 甩 不 。 


在 图 13-1 中 ,厂商 ID 为 0x18d1， 我 们 需要 将 这 个 厂商 ID 放 到 adb 
server 启 动 读 取 的 配置 文件 中 ， 而 配置 文件 是 哪 一 个 文件 呢 ? 答案 就 是 
用 户主 目录 的 .android 目 孙 下 名 为 adb_usb.ini 的 文件 。 配 置 好 之 后 ， 需 
要 在 命令 行 重新 启动 adb server， 即 执行 如 下 命令 : 


MacBook Pro 


硬件 USB 设备 树 
2 下 集线器 
ireWire Apple 内 置 键盘 /能 控 板 
NVMExpress IR 接收 机 
BG 了 BRCM20702 Hub 
SATAJ/SATA Express vUSB 3.0 ~ OR 
SPI Nexus 5X 
Thunderbolt iphone 
USB 
以 太 网 卡 Nexus 5X: 
储存 产品 ID Ox4ee2 
“EN 品 ID: xdee 
光盘 刻录 厂商 1D: Ox18d1 (Google Inc.) 
光纤 通道 版 本 : 3.10 
内 存 序列 号 ; 015b3c0ae94618e4 
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adb kill-server 
adb start-server 


然后 利用 以 下 命令 来 查看 这 个 设备 是 否 连 接 上 了 电脑 : 


adb devices -1 


上 述 命 令 用 于 查看 连接 到 电脑 上 的 设备 列表 ， 也 就 是 被 adb server 

只 别 的 设备 列表 。 如 果 读 者 是 在 开发 电视 上 的 应 用 ， 那么 束 不 可 屁 使 
用 连接 线 将 电视 设备 与 电脑 连接 起 来 ， 而 应 该 使 用 connect 命 令 进 
行 : 


adb connect 192.168.xx.xx:5555 


文 个 命令 仅 能 


J 连接 同一 个 局 域 网 内 的 设备 ， 献 认 病 口 守 是 5555， 
该 命令 执行 成 功 后 ， 则 和 使 用 USB 有 线 连 接 一 样 ， 只 不 过 是 通过 TCP 协 
议 进 行 操 作 的 。Android 设 备 被 成 功 连接 到 电脑 上 之 后 ， 了 怠 可 以 使 用 
ADB 工 具 来 操作 Android 设 备 『。 常 用 的 操作 如 下 。 


1. 安 装 / 仓 载 App 


如 有 果 在 电脑 上 有 一 个 apk 文 件 ， 想 要 安装 到 Android 设 备 中 去 ， 可 以 
执行 如 下 命令 : 


adb install test_ audio.apk 


执行 这 个 命令 就 会 将 test_audio.apk 安 装 到 Android 设 备 上 ， 如 果 设 
备 上 已 经 有 了 这 个 包 名 的 应 用 ， 操 作 就 会 失败 ， 如 果 想 直接 窗 盖 安 
装 ， 那 么 应 该 在 install 后 加 上 -r 参 数 ， 命 令 如 下 : 


adb install -r test_audio,apk 


而 一 般 的 IDE 在 打包 之 后 也 会 执行 这 个 命令 ， 并 将 打包 好 的 apk 安 
闭 到 设备 上 。 如 果 要 凶 载 一 个 应 用 ， 则 必须 知道 这 个 应 用 的 包 名 ， 
为 包 名 是 Android 设 备 上 App 的 唯一 标识 ， 命 令 如 下 : 


adb uninstall com.test.audio 


2. 文 件 操作 


如 果 要 将 应 用 程序 生成 的 文件 从 Android 设 备 中 放 到 电脑 上 ， 或 者 
将 资源 文件 从 电脑 上 放 到 Android 设 备 中 去 ， 就 需要 使 用 提供 的 文件 操 
作 工 具 。 上 述 分 为 两 种 场景 ， 第 一 种 场景 是 将 文件 从 Android 设 备 里 取 
出 来 ， 我 们 称 为 拉 取 文件 ， 命 令 如 下 : 


adb pull /mnt/sdcard/output.wav ./output.wav 


这 行 命令 是 将 Android 设 备 的 SD 卡 根 目 了 永 下 的 output.wav 文 件 取 
出 ， 放 到 电脑 的 当前 目 永 下 ， 其 中 /mntysdcard 代 表 SD 卡 的 根 目 了 未。 而 
电脑 上 放 到 Android 设 备 中 去 ， 则 称 为 推送 文件 ， 命 令 如 


adb push input.wav /mnt/sdcard/input, wav 


上 述 命 令 是 将 当前 目录 下 的 input.wav 文 件 放 到 Android 设 备 的 SD 卡 
根 目 录 下 。 注 意 ， 无 论 是 拉 取 文件 还 是 推送 文件 ， 都 可 以 操作 SD 卡 任 
意 目 录 下 的 文件 ， 但 不 能 操作 其 他 系统 目录 下 的 文件 。 


3. 千 有 有 上 日志 


应 用 程序 运行 过 程 中 ， 在 IDE 中 可 以 使 用 logcat 来 查看 日 志 ， 如 果 
不 使 用 IDE， 那 么 应 该 使 用 ADB 工 具 提 供 的 logcat 命 令 。 实 际 上 ，IDE 
中 的 logcat 也 是 使 用 ADB 工 具 中 的 logcat 命 令 来 实现 的 。 那 我 们 束 对 应 
痢 IDE 中 的 利用 操作 ， 来 看 一 下 使 用 ADB 工 具 如 何 实现 。 和 碍 看 当前 
Android 设 备 的 所 有 日 志 信 息 ， 直 接 使 用 如 下 命令 : 


adb logcat 


如 朱 要 清空 现在 所 有 的 日 志 缓 冲 区 ， 则 执行 如 下 命令 : 


adb logcat -c 


其 中 ， 参 数 -c 代 表 clear。 而 最 单 用 到 的 束 是 过 滤 某 个 标签 下 的 日 


志 ， 命 令 如 下 : 


adb logcat -s "AudioEncoder" 


如 条 要 同时 过 滤 多 个 标 和 位， 则 使 用 如 下 命令 : 
adb logcat -s "AudioEncoder | AudioDecoder" 


其 中 ， 中 间 的 竖 线 代表 或 者 的 意思 。 在 IDE 中 还 有 一 个 比较 重要 的 
功能 ， 束 是 根据 日 志 等 级 进行 过 着 ， 假 设 AudioEncoder 与 AudioDecoder 
中 都 有 Ifo 级 别 、Debug 级 别 以 及 Error 级 别 的 信息 ， 那 么 想 过 滤 出 
Debug 级 别 的 信息 ， 可 使 用 如 下 命令 : 


adb logcat AudioEncoder:D AudioDecoder:D *:S 


如 果 要 过 滤 某 个 进程 的 所 有 日 志 信 息 ， 那 我 们 必须 知道 这 个 进程 
的 ID 〈 即 pid) ， 使 用 的 命令 如 下 : 


-pid 20410 


adb logcat - 
其 中 ， 数 字 20410 代 表 要 查询 的 App 的 进程 ID 号 ， 具 体 如 何 获得 这 


个 进程 ID 号 ， 下 面 会 有 介绍 。 
ADB 工 具 中 最 常用 的 命令 就 是 这 些 ， 基 本 也 禾 盖 了 IDE 中 所 有 的 功 
能 。 当 然 ，]logcat 命 令 里 还 有 输出 为 文件 等 功能 ， 这 里 就 不 做 介绍 了 。 
4. 运 行 Shell 命 令 
a 


使 用 adb shell 命 令 ， 
是 在 大 部 分 情况 下 ， 可 能 并 不 是 太 方便 ， 因 此 可 以 直接 将 执行 的 


放 到 后 面 执行 ， 模 式 如 下 : 


adb shell [command line] 
上 面 曾 留 下 一 个 小 问题 ， 如 果 知 道 一 个 App 的 包 名 ， 想 获取 这 个 
App 的 进程 ID， 如 何 处 理 ? 事实 上 ， 可 以 使 用 如 下 命令 来 查看 : 


adb shell "ps | grep com,test,audio" 

命令 ps 是 列 出 所 有 的 进程 ， 而 后 面 的 坚 线 是 管道 的 意思 ， 即 把 前 

面 ps 命令 的 输出 作为 后 面 命令 的 输入 ， 而 后 面 的 grep 命 令 是 过 滤 操 作 ， 
S 可 以 看 到 如 下 结 


本 
将 com.test.audio 这 个 进程 名 字 过 小 出 来 ， 执 行 命 令 之 后 


com.test.audio 


20410 513 1073192 


可 能 不 同 设备 得 到 的 结 琳 不 尽 相 同 ， 但 古 第 二 列 就 是 我 们 想 要 的 


进程 号 ， 即 20410。 


下 面 再 来 介绍 常用 的 命令 ， 比 如 推送 文件 结束 之 后 ， 看 一 下 是 否 
推送 成 功 ， 可 以 执行 以 下 命令 : 


adb shell "cd /mnt/sdcard; ls -1 | grep wav" 


这 行 命令 的 意思 是 ， 先 进入 SD 卡 的 根 目录 ， 然 后 列 出 所 有 的 wav 
文件 ， 并 且 有 修改 时 间 的 信息 显示 。 如 琳 要 查看 一 个 App 的 内 存 占用 情 
况 ， 可 以 执行 如 下 命令 : 


adb shell dumpsys meminfo com.test.audio 


其 中 ，com.test.audio 是 要 查看 App 的 包 名 ， 执 行 这 个 命令 的 意义 就 
是 得 到 com.test.audio 这 个 App 的 内 存 占 用 信息 ， 下 面 选 取 其 中 比较 重要 
的 信息 来 看 一 下 : 


pss Private Private SwapPpss Heap Heap Heap 

Total Dirty Clean Dirty Size Alloc Free 

Native Heap 8709 8704 0 0 19456 10809 8646 

Dalvik Heap 8034 8004 0 0 17620 10572 7048 
EGL mtrack 27012 27012 0 0 

TOTAL 67242 47920 13192 18 37076 21381 15694 


从 上 面 的 信息 中 可 以 看 到 ，Native Heap 代 表 Native 层 的 堆 的 大 小 ， 
因为 在 Android 引 警 中 ， 虽 然 对 每 一 个 App 占 用 的 内 存 大 小 有 定义 ， 但 
是 对 于 App 使 用 Native 代 码 进 行内 存 的 分 配 和 销毁 却 是 不 进行 约束 的 ， 
所 以 这 里 可 以 理解 为 Native Heap， 即 Native 层 所 占用 内 存 的 大 小 ， 如 采 
一 直 在 增长 ， 则 需要 检查 程序 是 否 有 内 存 泄 漏 ， 而 对 应 的 Dalvik Heap 
则 是 对 应 的 Java 层 占用 的 内 存 大 小 ， 最 后 一 项 EGL mtrack 则 代表 
OpenGL ES 所 占用 的 显存 大 小 ， 因 为 在 手机 设备 上 都 是 集成 显卡 ， 所 
以 没有 单独 的 显存 ， 而 是 和 内 存 进行 共享 的 。 所 以 ， 我 们 查看 内 存 信 
息 时 ， 也 可 以 得 到 显存 的 信息 ， 如 果 这 一 行 的 内 存在 无 限 增 大 ， 则 应 
该 注意 在 应 用 程序 中 是 否 有 未 释放 的 纹理 对 象 或 者 帧 缓存 对 象 等 
OpenGL ES 对 象 。 


Android 4.4 以 上 版 本 提供 了 一 个 Shell 命 令 进 行 录 屏 ， 对 于 测试 人 


员 来 说 ， 可 以 比较 方便 地 录制 自己 的 操作 (可 以 在 设置 中 打开 显示 点 
按 操作 ， 会 在 视频 中 有 鼠标 点 ) ， 命 令 如 下 : 


adb shell screenrecord --size 720x1280 --bit-rate 500000 /mnt/sdcard/case-1.mp4 


命令 中 的 size 是 宽 乘 以 高 ， 所 以 要 注意 期 望 的 是 横 板 的 视频 还 是 纵 
版 的 视频 ， 比 特 率 可 以 依据 目 己 的 场景 来 设置 ， 最 终 文件 放置 到 SD 卡 
的 根 目 录 下 ， 以 case-1.mp4 作 为 存储 文件 名 。 在 设备 上 执行 完 操 作 后 ， 
可 使 用 快捷 键 CtrltC 来 停止 整个 视频 的 继续 录制 ， 然 后 使 用 adb pull 命 
令 将 case-1.mp4 拉 取 到 电脑 上 ， 以 进行 播放 操作 ， 这 时 可 以 看 到 我 们 刚 
才 执 行 的 所 有 操作 。 


在 工作 中 有 可 能 写 出 的 一 些 线程 会 在 后 人 台 一 直 跑 ， 它 们 有 可 能 是 
去 队列 里 取 数 据 ， 虽 然 这 个 队列 不 是 阻塞 队列 ， 但 也 有 可 能 是 开发 不 
小 心 写 出 的 空转 线程 ， 可 以 使 用 以 下 命令 来 查看 有 没有 空转 的 线程 : 


adb shell top -t -m 5 


top 命 令 是 查看 进程 占用 CPU 情况 的 指令 ， 在 Android 设 备 中 ，top 指 
令 后 加 上 参数 -t 代 表 碍 看 线程 占用 CPU 的 情况 ，-m 代 表 仅 查看 CPU 占用 
最 高 的 5 个 线程 。 如 果 看 到 某 个 线程 占用 CPU 比较 高 ， 开 发 人 员 束 可 以 
注意 是 否 需要 优化 或 者 更 改 实现 方式 。 


至 此 ，ADB 工 具 的 常用 命令 就 介绍 完了 ， 读 者 可 以 多 加 练习 ， 如 
果 运用 到 日 常 工作 中 ， 一 定 可 以 提高 工作 效率 。 


13.1.2 MAT 工 具 检 测 Java 冰 的 内 存 泄漏 


平常 在 开发 Android 应 用 的 时 候 ， 稍 有 不 慎 束 有 可 能 产生 OOM 

(Out of Memory) 异常 。 虽 然 Java 语 言 有 垃圾 回收 机 制 ， 但 也 不 能 杜 
绝 内 存 泄漏 、 内 存 淤 出 等 问题 。Android 系 统 会 分 配给 每 个 应 用 程序 一 
个 Dalv 这 虚拟 机 ， 这 样 的 分 配 策略 避免 了 因 系统 中 的 一 个 App 裔 种 而 导 
致 其 他 App 甚 至 是 系统 的 朋 误 。 所 以 Android 系 统 对 于 每 一 个 Dalvik 虚 拟 
机 也 分 配 了 一 定 的 内 存 。 当 开发 的 App 占 用 的 内 存 超过 了 这 个 内 存 上 限 
时 ， 就 会 产生 OOM 有 异常 。 为 了 避免 OOM， 开 发 人 员 必 须 为 App 做 一 定 
的 内 存 分 配 策略 。 在 一 般 的 Android 程 序 中 ， 占 用 内 存 最 大 的 部 分 束 是 
图 片 的 缓存 ， 因 为 Bitmap 是 存储 在 内 存 中 的 ， 通 常 使 用 LRUCache 来 作 
为 图 片 的 缓存 池 。 本 和 介绍 的 内 容 是 如 何 定位 以 及 修复 内 存 泄 漏 。 内 
存 泄漏 是 指 有 些 对 象 是 从 虚拟 机 的 根 对 象 通过 引用 链 可 达 的 ， 但 是 这 
些 对 象 在 App 中 再 也 不 会 被 用 到 了 。 由 于 这 些 对 象 是 从 虚拟 机 的 根 对 象 
可 达 的 ， 导 致 这 些 对 象 不 会 被 垃圾 回收 器 回收 ， 而 系统 对 这 些 对 象 又 
不 再 使 用 ， 从 而 导致 它们 成 为 内 存 垃圾 ， 永 远 不 被 使 用 ， 又 永远 不 被 
回收 挤 。 造 成 内 存 泄漏 的 原因 一 般 是 开发 人 员 的 不 良 编码 习惯 或 者 对 
Android 引 | 警 不 熟悉 。 本 市 使 用 DDMS (Dalvik Debug Monitor Server) 
与 MAT (Memory Analyzer Tool) 工具 来 定位 内 存 泄漏 ， 并 最 终 解 决 内 
存 泄 漏 问 题 。 


为 了 深入 理解 内 存 泄 漏 ， 需 要 先 来 看 看 Dalvik 虚 拟 机 对 于 内 存 的 分 
配 情 况 ， 如 图 13-2 所 示 。 
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虚拟 机 栈 本 地 方法 栈 


已 加 载 的 类 信息 当前 栈 帧 
局 部 变量 表 


常量 池 及 静态 变量 


程序 计数 办 


本 地 库 接口 


图 13-2 


如 图 13-2 所 示 ， 当 类 加 载 器 (Class Loader) 将 一 个 类 的 字 节 码 加 
载 到 虚拟 机 中 的 时 候 ， 首 先 会 将 这 个 类 的 信息 存 入 方法 区 ， 这 个 类 的 
静态 变量 也 在 方法 区 中 ; 当 基 于 这 个 类 创建 一 个 对 象 时 ， 这 个 对 象 就 
存储 于 堆 内 存 中 。 方 法 区 内 存 区 域 和 堆 内 存 区 域 都 是 线程 共享 的 数据 
区 域 。 图 13-2 中 的 虚拟 机 栈 古 指 当 前 线程 运行 的 现场 信息 ， 属 于 线程 间 
隔离 的 数据 ;本 地 方法 栈 是 指 对 于 Native 方 法 的 调用 现场 ， 对 于 线程 也 
是 独立 的 ; 程序 计数 器 就 是 记录 程序 运行 的 下 一 条 指令 的 地 址 ， 也 是 
线程 之 间 相 互 独立 的 区 域 。 


了 解 了 虚拟 机 内 存 分 配方 面 的 知识 ， 再 来 看 一 下 虚拟 机 的 垃圾 回 
收 机 制 。 垃 圾 回收 机 制 主要 针对 堆 内 存 区 域 进行 坪 圾 回收 。 这 里 所 请 
的 垃圾 吏 是 指 以 根 对 象 为 起 点 ， 从 这 个 起 点 同 下 搜索 ， 搜 索 走 过 的 路 
径 称 为 引用 链 ， 当 一 个 对 象 不 在 任何 引用 链 上 时 ， 则 说 明 这 个 对 象 是 
不 可 能 再 被 使 用 的 ， 则 标记 为 垃圾 ， 志 圾 回收 硕 在 下 一 次 回收 的 时 候 
驶 会 把 这 块 内 存 释放 椒 。 这 种 垃圾 回收 方法 充分 解决 了 循环 引用 等 问 
题 ， 是 比较 先进 的 垃圾 回收 机 制 。 标 记 是 否 为 垃圾 的 过 称 如 图 13-3 所 
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图 13-3 


在 图 13-3 中 ，object 1、object 2、object 3、object 4 都 存在 于 根 对 象 
(GC Roots) 的 引用 链 上 ， 或 者 说 是 从 根 对 象 可 达 的 对 象 。 而 object 
5、object 6、object 7 尽管 有 循环 引用 ， 但 形成 的 只 是 一 座 孤 岛 ， 并 不 
存在 于 根 对 象 的 引用 链 上 ， 或 者 说 从 根 对 象 是 不 可 达 的 对 象 。 那 上 面 
所 讲 的 根 对 象 (GC Roots) 又 有 了 哪些 呢 ? 大 致 可 分 为 以 下 几 类 。 


-虚拟 机 栈 中 引用 的 对 象 ， 一 般 是 当前 使 用 中 的 局 部 变量 。 

方法 区 中 类 静态 属性 引用 的 对 象 ， 就 是 静态 变量 对 应 的 对 象 。 

方法 区 中 常量 引用 的 对 象 。 

-本 地 方法 栈 中 JNI ( 即 一 般 所 说 的 Native 方 法 ) 引用 的 对 象 。 

当 由 于 开发 人 员 不 好 的 编码 习惯 或 者 对 某 些 框 架 (Android 引 警 ) 
不 熟悉 导致 一 些 对 象 不 再 使 用 ， 但 是 还 处 于 从 根 对 象 (GC Roots) 可 
达 的 状态 时 ， 就 造成 了 内 存 泄漏 。 本 节 将 从 三 个 层面 来 定位 内 存 泄漏 
并 最 终 给 出 解决 方案 ， 这 三 个 层面 分 别 是 方法 区 内 静态 变量 引起 的 内 
存 泄漏 、 匿 名 内 部 类 引起 的 内 存 泄漏 〈 会 以 Android 引 擎 提供 的 Handler 
的 使 用 作为 实例 进行 介绍 ， 以 及 本 地 方法 栈 引 起 的 内 存 泄 漏 。 


1. 方 法 区 内 静态 变量 引起 的 内 存 泄 漏 


一 个 类 的 静态 变量 处 于 虚拟 机 内 存 的 方法 区 ， 属 于 根 对 象 集合 的 
一 部 分 ， 开 发 中 应 该 尽量 避免 给 静态 变量 赋值 Activity 类 型 的 实例 。 但 
是 ， 有 的 开发 者 为 了 快速 完成 产品 的 需求 ， 常 以 最 快 的 方式 (比如 静 
态 变 量 引 用 了 Activity) 来 实现 ， 这 对 于 整个 开发 过 程 来 讲 是 糟糕 的 。 
这 种 做 法 最 终 并 不 能 让 产品 快速 上 线 ， 即 使 产品 上 线 了 ， 用 户 使 用 之 
后 也 会 遇 到 各 种 问题 。 下 面 展示 一 段 代 码 示例 : 


public class AudioProcessorService { 
private static List<Context> mContexts = new ArrayList<Context>(); 
public AudioProcessorService(Context context) { 
AudioProcessorService.mContexts.add(context); 


在 主 界面 的 MainActivity 中 点 击 按 钮 会 跳 转 到 
TestJavaMemoryLeakActivity， 在 Activity 的 onCreate 方 法 里 创建 一 个 
AudioProcessorService 类 型 的 对 象 ， 接 着 在 Activity 界 面 中 有 一 个 按钮 ， 
点 击 该 按钮 就 可 以 调用 对 象 中 的 其 他 方法 ， 最 后 点 击 返 回 退 出 主 界面 
MainActivity。 为 了 方便 演示 内 存 泄漏 ， 在 TestJavaMemoryLeakActivity 
中 加 入 一 个 5MB 大 小 的 字 市 数组 类 型 的 成 员 变 量 ， 在 实际 生产 环境 
i 图 片 与 Yiew， 同 样 也 会 占用 很 大 的 内 存 ， 代 码 

下: 


private byte[] buffers = new byte[5 * 1024 * 1024]; 


JIE rz 作 、 


重复 上 壕 过 程 3~5 次 ， 肯 定 会 造成 TestJavaMemoryLeakActivity 的 
内 存 浴 漏 。 下 面 就 来 看 看 到 的 有 没有 内 存 汇 着 ， 以 及 是 什么 操作 导致 
的 内 存 泄漏 。 首 先 切换 到 DDMS 视 图 界面 ， 如 图 13-4 所 示 。 


目 p evices bx 品 日 | 总 Threads 国 Heap 器 国 Allocation Tra [3 
车 居 自 急 望 多 通 估 人 上 了 Heapupdateswillhappenafterevel 
Name ID Heap Size Allocated Free %Used # Objects 
于 目 lg9e-nexus_5x-015b3c0ae94618e4 Online 1 15.819MB 9.491MB 6.328 MB 60.00% 25,041 Cause GC 
22572 

Display: Stats 
Type Count Total Size Smallest Largest Median Avera 
free 516 688.016 KB 8B 137.281 KB 112B 1.333 KB 
data object 1,883 205.875 KB 8B 35.180 KB 32B 111B 
class object 9 11.375 KB 192B 4.000 KB 448B 1.264 KB 
1-byte array (byte[], boolean[l]) 103 8.350 MB 16B 5.000 MB 19.703 KB 83.014 KB 
2-byte array (short[], char[]) 12 176.992 KB 16B 53.273KB 17.500 KB 14.749 KB 
4-byte array (object[], intD, floatD) 301 493.906 KB 16B 383.852 KB 48B 1.641 KB 


8-byte array (long[], double[]) 41 
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63.500 KB 32B 47.797 KB 


32B 


1.548 KB 


可 以 多 次 点 击 图 13-4 中 右边 的 Cause GC 按 钮 ， 主 动 让 虚拟 机 多 执 
行 几 次 垃圾 回收 ， 然 后 点 击 左上 角 的 Dump HPROF fe 按钮 ， 将 当前 
com.example.memoryleak 这 个 应 用 的 虚拟 机 内 存 分 配 情况 以 文件 的 形式 
下 载 下 来 。 如 果 Edlipse 中 安装 了 MAT 插 件 ， 就 默认 使 用 该 插件 打开 这 
个 文件 ， 如 有 果 没 有 搬 件 ， 束 会 以 文件 的 形式 保存 到 用 户 指 定 的 路 经 
下 ， 然 后 使 用 单独 的 MAT 工 具 打 开 这 个 文件 。 无 论 是 单独 的 MAT 工 具 
还 是 Eclipse 中 的 MAT 揪 件 ， 打 开 之 后 的 结果 如 图 13-5 所 示 。 


从 图 13-5 中 可 以 看 到 ， 饼 形 图 是 App 内 存 的 总 哎 图 ， 内 存 占 用 大 小 
为 25.8MB， 有 三 个 5MB 的 大 对 象 存在 ， 图 中 下 方 还 有 三 个 比较 重要 的 
按钮 ， 分 别 是 Histogram、Dominator Tree 和 Leak Suspects。 利 用 MAT 分 
a 我 们 可 以 先 打 开 视 图 Leak Suspects， 

虽 终 13-6 所 不 。 


图 13-6 所 示 的 饼 形 图 展示 可 能 存在 内 存 泄漏 的 对 象 ， 可 以 在 这 个 视 
图 的 下 半 部 分 找到 第 一 个 泄漏 5MB 内 存 的 对 象 ， 如 图 13-7 所 示 。 


™ Biggest Objects by Retained Size 
SMB 


~ 10.8MB 
Total:25.8MB 


Remainder 


Y Actions 7 Reports | 属 Step By Step 


Wl Histogram : Lists number of Leak Suspects : includes leak Component Report : Analyze 
instances per class suspects and a system objects which belong to a 

早 s Dominator Tree : List the overview common root package or class 
biggest objects and what Top Components : list reports “ 
they keep alive. for components bigger than 1 
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国 a) Problem Suspect 1 
国 b) Problem Suspect 2 
国 <) Problem Suspect 3 
) 
) 


一 8) 570.5MB 国 d) Problem Suspect 4 
国 s) Problem Suspect 5 
f) 33MB 国 f ) Problem Suspect 6 
> [lg) Remainder 
d) 3.5MB “Sy 
e) 3.4MB 
Total:25.8MB 


图 13-6 
图 13-7 中 显示 了 哪 一 个 对 象 被 哪 一 个 类 加 载 器 加 载 进 来 ， 占 用 了 多 
大 内 存 ， 以 及 主要 是 由 哪 一 个 成 员 变 量 占 用 的 内 存 。 可 以 点 击 Details 进 
入 下 一 级 界面 来 查看 这 个 对 象 的 引用 细节 ， 如 图 13-8 所 示 。 


= 四 Problem Suspect 1 


One instance of "com.example.java.layer.TestJavaMemoryLeakActivity" loaded by 
. "dalvik.system.PathClassLoader @ 0x12c1a430" occupies 5,246,160 (19.36%) bytes. The memory 
is accumulated in one instance of "byte[" loaded by "<system class loader>". 


Keywords 
: com.example.java.layer. TestJavaMemoryLeakActivity 
.byt 


| ell 
| dalvik.system.PathClassLoader @ 0x12c1a430 


| Details » 


图 13-8 中 展示 了 一 个 5MB 大 小 的 字 节 数组 ， 这 个 数组 被 
TestJavaMemory-LeakActivity 类 的 一 个 实例 里 的 成 员 变 量 buffers 所 引 
用 ， 而 这 个 实例 是 被 一 个 ArrayList 里 的 Index 为 2 的 元 素 所 引用 ， 这 个 
ArrayList 实 例 义 被 AudioProcessorService 类 的 实例 变量 mContexts 所 引 
用 ; 这 个 数组 同时 被 另外 一 个 成 员 变 量 mContext 所 引用 ，mContext 是 
Button 对 象 中 的 成 员 变量 。 而 Button 就 是 这 个 Activity 里 的 一 个 按钮 组 
件 ， 所 以 造成 内 存 泄 漏 的 就 是 AudioProcessorService 中 的 静态 变量 


mGContexts。 如 果 再 向 下 看 ， 男 外 两 个 泄漏 的 Activity 对 象 分 别 被 
ArrayList 中 Index 为 0 和 Index 为 1 的 元 素 所 引用 。 


ice @ Ox12c4d900 System Class 


图 13-8 


结合 上 有 述 代 码 ， 可 以 看 到 确实 是 因为 这 个 静态 变量 作为 根 对 象 
(GC Roots) 一 直 引 用 着 Activity 实 例 ， 致 使 退出 Activity 的 时 候 ， 

Activity 对 象 还 是 不 能 够 被 虚拟 机 的 垃圾 回收 器 回收 掉 。 显 然 ， 在 实际 
开发 过 程 中 ， 不 太 可 能 使 用 一 个 ArrayList 存 放 Context 类 型 的 变量 。 但 
是 有 可 能 会 使 用 一 个 静态 变量 引用 。 所 以 在 开发 过 程 中 ， 不 要 使 用 静 
态 变 量 或 者 常量 来 引用 Activity 的 实例 ， 否 则 会 造成 内 存 泄漏 。 男 外 ， 
在 日 常 开发 中 ，Activity 中 很 少 会 直接 有 这 么 大 的 byte 数 组 ， 更 多 的 情 
况 下 以 Bitmap 的 形式 存在 ， 比 如 一 个 宽 为 360、 高 为 640 并 且 表 示 格 式 
为 RGBA_8888 的 Bitmap 对 象 所 占用 的 内 存 大 小 为 : 


360 * 640 * 4 = 900KB 


如 果 有 8 张 图 片 ， 那 么 占用 7MB 的 空间 ， 所 以 一 般 Activity 的 实例 都 
属于 内 存 对 象 ， 实 际 开发 中 可 以 优先 检查 Activity 的 内 存 泄漏 。 


2. 匿 名 内 部 类 引起 的 内 存 泄 疡 


下 面 从 匿名 内 部 类 角度 来 分 析 造 成 内 存 泄漏 的 案例 。 在 Java 中 ， 无 
论 是 匿名 内 部 类 还 是 内 部 类 ， 都 可 以 引用 所 在 类 中 的 实例 变量 或 者 方 
法 ， 这 是 为 什么 ? 实际 上 ， 内 部 类 对 所 在 类 的 实例 对 象 有 一 个 引用 ， 
并 且 这 个 引用 是 一 个 强 引 用 的 关系 ， 即 如 果 这 个 内 部 类 构建 的 对 象 没 
有 被 释放 掉 ， 那 么 内 部 类 所 引用 的 外 部 类 创建 的 对 象 也 永远 不 会 被 释 
放 “。 而 开发 者 在 开发 Android 程 序 的 时 候 ， 最 党 使 用 的 是 Android SDK 
提供 的 Handler 来 进行 线程 之 间 的 通信 。 在 创建 Handler 的 时 候 ， 为 了 入 
单方 便 ， 开 发 者 一 般 都 会 直接 写 一 个 匿名 内 部 类 或 者 内 部 类 继承 自 


Handler， 并 重 写 方法 handleMessage 在 主线 程 中 处 理 界 面 的 演 染 以 及 绘 
制 。 下 面 展示 一 段 大 家 在 开发 中 最 常 使 用 的 代码 : 


public class TestJavaMemoryLeakActivity extends Activity { 
private static final int ON_HOUR_KEY = 100; 
private byte[] buffers = new byte[5 * 1024 * 1024]; 
protected void onCreate(Bundle SavedInstanceState) { 
super .onCreate(savedInstanceState); 
setCcontentView(R.layout.activity_java leak); 
Message msg = new Message(); 
msg.what = ON_HOUR_KEY; 
handler .sendMessageDelayed(msg, 1000 * 60 * 60); 


private Handler handler = new Handler() { 
public void handleMessage(Message msg) { 
switch (msg.what) { 
case ON_HOUR_KEY: 
displayTip(); 
break; 
default: 
break; 
} 
} 


} 
public void displayTip() { 
Log.i("problem",， "开播 一 个 小 时 了 。。。"); 


上 面 这 段 代码 完成 的 功能 很 简单 ， 就 是 进入 某 界 面 承 开 始 计时 ， 
一 个 小 时 之 后 输出 一 行 日 志 “ 开 播 一 个 小 时 了 ...”。 这 其 实 就 是 在 模拟 
一 个 直播 App 的 主播 端 ， 待 主播 开播 一 个 小 时 之 后 提示 主播 。 这 是 一 个 
非常 典型 的 场景 。 我 们 可 以 模拟 主播 ， 在 主 界面 点 击 按钮 进入 这 个 界 
面 之 后 ， 等 待 几 秒 钟 ， 然 后 退回 主 界面 ， 重 复 以 上 操作 3 一 5 次 。 再 进 
入 DDMS 界 面 ， 点 击 左 上 角 的 Dump HPROF file 按 钮 ， 从 而 查看 到 内 存 
泄漏 的 MAT 界 面 ， 如 图 13-9 所 示 。 


Class Name Shallow Heap Retained Heap 


回 
byte{5242880] @ 0xcb0b6000 .ces 5,242,896 5,242,896 


~“ |buffers com.example.java.lay: oryLeakActivity @ Ox12c826a0 232 5,246,128 


i this$0 com.example.jav: 


lemoryLeakActivitySMyHandler @ 0x12ca70a0 32 32 


get android.0s.Message @ Ox12c457c0 64 320 


-MmQueue com.android.internal.view.lInputConnectionWrapperSMyHandler @ 0x12c884c0 » 32 32 


-mAQveue andr lity.AccessibilityManagerSMyHandler @ 0x12c67c00 » 32 32 
人 门 mQueue android.hai edisplay.DisplayManagerClobalSDisplayListenerDelegate @ 0x12c88680 » 32 32 
口 mQi droid wRootimplSViewRootHandler @ Ox12c88400 » 2 32 


-mAQueue 


.ZF Total: 8 entries 
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从 图 13-9 可 以 看 到 ， 这 个 Activity 实 例 是 被 它 内 部 类 MyHandler 的 一 
个 实例 引用 的 ， 而 MyHandler 实 例 是 被 一 个 Message 实 例 中 的 成 员 变 量 
target 引 用 的 ，Message 对 象 又 是 被 MessageQueue 实 例 中 的 成 员 变 量 
mMessages 所 引用 的 ，MessageQueue 对 象 则 是 被 整个 Android 引 擎 中 的 
本 地 方法 栈 、Looper 等 完全 可 以 作为 根 对 象 集合 的 对 象 引 用 着 的 ， 所 
以 这 个 Activity 对 象 一 直 无 法 被 释放 。 上 壕 引 用 关系 链 是 通过 内 存 泄 漏 
工具 分 析出 来 的 ， 下 面 从 男 外 一 个 角度 即 对 应 着 Android 框 染 的 源码 分 
析 为 何 这 个 界面 退出 了 却 无 法 被 垃圾 回收 器 回收 掉 。 下 面 我 们 看 看 
Handler、MessageQueue、Looper 的 结构 关系 图 ， 如 图 13-10 所 示 。 


Message 
Elel 


wahat\arg1\arg2\0bj:… 

postRunnable 构造 出 一 个 Message， 并 且 target 
计算 出 执行 时 间 ， 然 后 调用 callback loop() 
MessageQueue 入 队 方 法 next 


Looper 


调用 MessageQueue 的 
next 方法 ， 取 出 msg， 调 
MessageQueue 用 msg 的 target(Handler) 
的 DispatchMessage 方法 ， 


sendMessage 


enqueueMessage() 这 个 方法 负责 分 发 消 处 理 
class MyHandler extends Handler { 组 织 成 为 一 个 以 时 间 为 顺 
void handleMessage(Message msg){ 序 的 单 向 链表 
/Do Something By msg.what next() 
} 按照 时 间 的 顺序 以 Blocking 
} 的 方式 返回 给 调用 端 


图 13-10 


从 图 13-10 中 可 以 看 到 ，Handler 右 外 骏 露 两 种 类 型 的 接口 ， 第 一 种 

是 sendMessage 接 口 ， 即 开发 者 构造 一 个 Message 对 象 ， 然 后 调用 
sendMessage 或 者 sendMessageDelayed 利 用 Handler 将 消息 发 送出 去 ; 第 
二 种 是 postRunnable 接 口 ， 即 开发 者 构造 一 个 Runnable 类 型 的 对 象 ， 然 
后 调用 post 方 法 或 者 postDelayed 方 法 。 在 Handler 内 部 ， 无 论 是 对 于 哪 
一 种 接口 ， 都 会 构造 一 个 Message 对 象 。 对 于 post 类 型 的 接口 ， 会 将 
Runnable 对 象 赋值 给 Message 的 成 员 变 量 callback， 以 备 后 用 。 然 后 将 这 
个 Handler 赋 值 给 Message 的 成 员 变 量 target， 并 按照 当前 时 间 礁 加 上 
Delayed 的 时 间 ， 作 为 执行 时 间 调 用 消息 队列 (MessageQueue) 的 
enqueueMessage 方 法 ， 且 将 Message 对 象 放 入 消息 队列 

(MessageQueue) 。 而 Looper 的 loop 方 法 在 Android 引 警 启动 应 用 的 时 
候 就 在 主线 程 中 不 断 地 调用 消息 队列 (MessgeQueue) 的 next 方 法 ， 它 
会 取出 消息 (Message) ， 并 调用 消息 的 target (开发 者 自 定义 的 
Handler) 的 dispatchMessage 方 法 ， 在 dispatchMessage 方 法 中 会 先 判定 消 


息 有 没有 被 设置 callback。 如 果 有 ， 说 明 是 post 接 口 推 送 进来 的 消息 ， 
则 调用 callback 的 run 方 法 ， 如 果 没 有 人 被 设置 callback， 则 调用 
handleMessage 方 法 ， 一 般 开 发 者 会 重 写 这 个 方法 来 处 理 自己 的 消息 回 
调 ， 这 样 就 完成 了 子 线程 和 主线 程 的 交互 操作 。 


上 述 分 析 中 ， 核 心 的 实现 其 实 是 消息 队列 (MessageQueue) 的 
enqueueMessage 方 法 和 next 方 法 ， 这 两 个 方法 会 按照 BlockingQueue 的 方 
式 响 应 外 界 的 调用 ， 只 不 过 这 个 队列 是 按照 时 间 顺 序 组 建 起 来 的 消 筷 
链表 。 从 源码 进行 分 析 ， 读 者 应 该 会 更 加 清晰 为 何 Activity 的 实例 不 会 
被 Dalvik 垃 圾 回收 器 回收 掉 了 ， 因 为 在 调用 了 Handler 对 象 的 发 送 延 迟 
消息 代码 后 ， 这 个 Handler 实 例 就 被 Message 对 象 所 引用 ， 而 Message 由 
于 还 没有 到 达 执 行 时 间 ， 所 以 一 直 存 储 在 MessageQueue 中 ， 这 个 引用 
关系 也 一 直 存 在 ，Activity 实 例 也 一 直 在 根 对 象 (GC Roots) 可 达 路 径 
上 ， 所 以 就 不 可 能 被 回收 掉 。 虽 然 只 是 一 段 时 间 内 不 被 回收 掉 ， 但 是 
在 这 段 时 间 内 会 影响 到 用 户 的 使 用 ， 甚 至 有 可 能 造成 OOM 异 常 的 抛 
出 ， 最 终 使 整个 应 用 月 溃 。 既 然 发 现 了 问题 ， 解 决 问题 也 就 变 得 非常 
简单 了 。 一 般 来 说 ， 解 决 这 类 问题 有 两 种 方法 。 


方法 一 : 在 Activity 的 生命 周期 方法 onDestroy 中 将 Handler 中 的 所 有 
Message 都 清空 ， 这 样 职 不 会 有 任何 引用 了 ， 代 码 如 下 : 


Q@override 
protected void onDestroy() { 
super .onDestroy(); 
handler .removeCallbacksAndMessages(null); 


} 


方法 二 : 将 这 个 内 部 类 改 为 一 个 静态 的 内 部 类 ， 既 然 是 静态 的 ， 
那么 瑟 属 于 类 ， 而 不 属于 类 的 实例 ， 这 样 束 不 会 对 所 在 类 的 对 象 有 一 
个 强 引 用 的 关系 了 。 而 在 Handler 中 ， 又 需要 调用 所 在 类 的 方法 执行 一 
些 页 面 绘制 操作 ， 那 么 就 需要 给 Handler 增 加 一 个 所 在 类 的 虚 引 用 类 型 
的 实例 变量 ， 而 虚 引 用 会 在 垃圾 回收 如 进行 FUGC 的 时 候 回 收 控 ， 这 
se ， 吏 不 会 再 产生 内 存 泄 漏 
， 代 人 的 如 下 : 


static class MyHandler extends Handler { 
private WeakReference<TestJavaMemoryLeakActivity> activity; 
public MyHandler(TestJavaMemoryLeakActivity activity) { 
this.activity = new WeakReference<TestJavaMemoryLeakActivity>(activity); 
} 


@Override 
public void handleMessage(Message msg) { 
TestJavaMemoryLeakActivity context = activity.get(); 
if(null == context) { 
return; 


} 
switch (msg.what) { 
case ON_HOUR_KEY: 
context.displayTip(); 
break; 
default: 
break; 


构造 Handler 的 时 候 ， 代 码 变 为 如 下 所 示 的 形式 .: 


private MyHandler handler = new MyHandler(this); 


上 壕 两 种 方法 都 可 以 解决 使 用 Handler 情 况 下 的 内 存 泄漏 ， 其 他 情 
况 下 ， 对 于 内 部 类 的 使 用 ， 大 家 一 定 要 考虑 内 部 类 的 生命 周期 不 应 该 
长 于 所 在 的 外 部 类 ， 人 否则 应 该 回 到 这 个 模块 的 设计 阶段 ， 再 来 理 清 整 
个 模块 中 类 的 关系 。 


3. 本 地 方法 栈 引 起 的 内 存 泄 疡 


下 面 从 本 地 方法 栈 的 角度 分 析 造 成 内 存 泄漏 的 案例 。 在 开发 中 ， 
如 果 要 在 Native 层 调用 Java 层 的 方法 ， 一 般 都 会 在 JNI 层 建立 一 个 全 局 
的 对 象 引用 并 存储 到 全 局 变量 中 。 代 码 如 下 : 


jobject globalobj = 09; 
JNIEXPORT void JNICALL Java com example_java layer_JNILayer_init(JNIEnv * env， 
jobject obj) { 
JavavM *g_jvm = NULL， 
env->GetJavavM(&g_jvm) ， 
globalobj = env->NewG1LobalRef(obj ) ， 


JNIEXPORT void JNICALL Java com example_java layer_JNILayer_process 
(JNIEnV * env, jobject obj) { 
LOGI("Enter Java com example_ java_layer_JNILayer_process..."); 


上 
JNIEXPORT void JNICALL Java com example_ java layer_JNILayer_destroy 
(JNIEnV * env, jobject obj) { 
LOGI("Enter Java com example_ java _ layer_JNILayer destroy..."); 
//env->DeleteGlobalRef (global0bj); 
//global0b]j] = 9; 
} 


以 上 代码 中 ，Init 方 法 利用 JNIEnv 创 建 了 一 个 GlobalRef 全 局 对 象 ， 
我 们 可 以 依靠 这 个 全 局 对 象 在 Native 层 的 任何 地 方 去 调用 Java 层 的 代 
码 。 使 用 JNIEnv 创 建 全 局 对 象 后 ， 就 会 在 本 地 方法 栈 中 保留 对 Java 层 该 
对 象 的 一 个 引用 ， 就 相当 于 在 根 对 象 (GC Roots) 集合 的 本 地 方法 栈 
中 加 入 了 GlobalRef 。 当 虚拟 机 的 垃圾 回收 需 进 行 垃圾 回收 的 时 候 ， 
Java 层 的 这 个 对 象 就 不 会 被 回收 掉 ， 所 以 在 最 终结 束 了 调用 或 者 生命 周 
期 的 时 候 一 定 要 删除 GlobalRef。 如 果 起 记 删 掉 ， 就 会 造成 内 存 泄漏 。 
这 里 将 上 述 代 码 中 destroy 方 法 中 删除 全 局 对 象 的 方法 注释 掉 ， 这 样 惑 
伪造 了 相应 的 案例 来 分 析 内 存 泄 漏 。 为 了 有 效 观 察 到 内 存 泄 漏 ， 在 有 
native 方 法 的 Java 类 JNILayer 中 引用 AudioProcessorService 的 实例 。 代 码 
如 下 : 


public class JNILayer { 
private AudioProcessorService mService,; 
public JNILayer(AudiopProcessorService service) { 
mService = service; 


public native void init(); 
public native void process(); 
public native void destroy(); 


当然 ， 在 AudioProcessorService 类 中 要 初始 化 JNILayer， 并 且 在 
AudioProcessorService 类 中 引用 自己 创建 的 Activity 类 型 的 实例 ， 代 码 如 
下 : 


public class AudioprocessorService { 
private JNILayer jniLayer = new JNILayer(this); 
private Context mContext,; 
public AudioProcessorService(Context context) { 
mContext = context; 
jniLayer .init(); 


} 
public void doProcess() { 
jniLayer .process(); 


public void destroy() { 
jniLayer.destroy(); 
} 


} 


在 Activity 的 生命 周期 方法 onCreate 中 会 初始 化 
AudioProcessorService 实 例 ， 然 后 在 生命 周期 方法 onDestroy 中 会 调用 
AudioProcessorService 的 Destroy 方 法 。 在 主 界面 中 ， 点 击 按钮 进入 


Activity， 然 后 退出 ， 反 复 执行 上 述 操 作 几 次 。 之 后 进入 DDMS 界 面 ， 
并 点 击 左 上 角 的 Dump HPROF file 按 钮 ， 即 可 查看 到 内 存 泄 漏 的 MAT 界 
面 ， 如 图 13-11 所 示 。 


图 13-11 


从 图 13-11 中 可 以 看 到 ， 选 中 的 一 行 显示 这 个 Activity 对 象 被 根 对 象 
(GC Roots) 引用 的 是 JNILayer 类 中 的 本 地 方法 栈 (Native Stack) ， 
对 应 到 代码 中 ， 就 是 JNI 层 的 类 中 Destroy 方 法 没有 把 GlobalRef 删 除 挤 。 
放 开 注释 掉 的 代码 ， 然 后 以 同样 的 流程 进行 控 作 ， 就 不 会 再 有 内 存 港 
漏 。 因 此 ， 一 旦 在 JNI 中 创建 了 一 个 GlobalRef， 一 定 要 注意 在 最 终 不 需 
要 的 时 候 删 除 挥 ， 否 则 会 造成 内 存 泄 漏 。 


上 述 内 存 泄 漏 是 广大 开发 者 常会 犯 的 错误 ， 当 然 还 有 一 些 其 他 内 
存 浴 漏 的 情况 。 比 如 使 用 BroadcastReceiver 的 时 候 调用 了 register， 但 是 
在 不 需要 的 时 候 没 有 调用 unregister;， 又 比如 访问 ContentProvider 用 的 
Cursor 没 有 关闭 或 者 IO 没有 关闭 等 。 所 以 开发 者 在 日 常 开发 中 应 保持 
展 好 的 编码 习惯 ， 并 在 团队 内 做 好 代码 评审 等 工作 ， 以 确保 产品 的 顺 
利 上 线 与 民 好 体验 。 


13.1.3 NDK 工 具 详解 


NDK 路 径 下 的 模块 在 前 面 章 节 中 已 经 介绍 过 ， 本 节 重 点 介绍 NDK 
提供 的 gcc 工 具 所 在 的 路 径 ， 如 下 : 


NDK_GCC_TOOL_DIRECTORY=$NDKROOT/toolchains/arm-linux-androideabi-4.9/prebuilt 
/darwin-x86_64/bin/ 


在 这 个 路 和 熟练 使 用 这 里 的 工具 可 以 大 大 提 
高 我 们 的 工作 效率 。 下 面 逐 一 介绍 日 常 工作 中 用 到 的 这 些 工 具 。 


1. 利 用 readelf 命 令 输出 动态 so 库 中 的 所 有 函数 
命令 如 下 : 


./arm-linux-androideabi-readelf -a libMemoryLeak.so > func.txt 


打开 func.txt 可 以 看 到 so 中 的 所 有 函数 ， 如 有 果 运 行 Android 设 备 上 的 
应 用 报错 说 找 不 到 某 个 JNI 方 法 ， 束 可 以 使 用 这 行 命令 将 so 库 中 的 方法 
全 部 导出 来 ， 然 后 搜索 对 应 的 JNI 方 法 ， 看 看 到 压 有 没有 被 编译 到 动态 
库 中 ， 在 最 后 有 一 个 参数 Tag_CPU_name 写 着 ARM v7， 代 表 以 armv7 
的 架构 进行 编译 。 注 意 这 里 的 输入 so 包 一 定 要 是 obj 目 录 下 带 symbol 
file 的 so 库 ， 而 不 应 该 是 libs 目 录 下 的 so 库 。 


2. 利 用 objdump 命 令 将 so 包 反 编译 为 实际 的 代码 
# 令 如 下 


./arm-linux-androideabi-objdump -dx libMemoryLeak.so > Stacktrace ,txt 


打开 stacktrace.txt， 是 这 个 动态 so 库 的 符号 表 人 信息， 可 以 看 到 编译 
进来 的 所 有 方法 以 及 调用 堆栈 的 地 址 。 后 面 介 绍 的 动态 检测 内 存 泄漏 
中 ， 获 取 方 法 调用 堆栈 的 地 址 信息 就 是 这 个 地 址 。 


3. 利 用 nm 指令 查看 静态 库 中 的 符号 表 
站 令 如 下 : 


./arm-linux-androideabi-nm libaudio.a > symbol.file 


打开 symbol.file， 可 以 看 到 静态 库 中 所 有 的 方法 声明 ， 如 采 在 编译 
so 动态 库 的 过 程 中 储 到 undefined reference 类 型 的 错误 ， 或 者 duplicated 
reference， 可 以 使 用 这 条 指令 将 对 应 静态 库 的 所 有 方法 都 导出 来 ， 然 
后 看 一 下 到 底 有 没有 或 者 重复 定义 的 方法 。 


4. 利 用 g++ 指令 编译 程序 
8 令 如 下 : 


SYS_ROOT=$NDKROOT/platforms/android-21/arch-arm/ 
arm-linux-androideabi-g++ -02 -DNDEBUG --sysroot=$SYS_ ROOT -0 libMemoryLeak.so 
jni/test memory.cpp -lm -lstdc++ 


不 论 是 .a 的 静态 库 还 是 .so 的 动态 库 ， 甚 至 是 可 执行 的 命令 行 工 
具 ， 都 可 以 使 用 g++ 编 译 ， 而 常 使 用 的 ndk-build 命 令 实 际 上 是 对 
Android.mk 以 及 g++ 的 一 种 封装 ， 这 种 封闭 将 g++ 的 细 贡 封装 起 来 ， 让 
开发 者 更 加 方便 。 附 录 中 介绍 NE10 的 交叉 编译 到 Android 平 台 ， 使 用 
的 就 是 g++ 的 编译 方式 ， 只 不 过 用 CMake 封 装 了 一 次 。 


5. 利 用 addr2line 将 调用 地 址 转化 成 代码 行 数 
# 令 如 下 ， 


./arm-linux-androideabi-addr2line -e libMemoryLeak.so Oxcf9c > file.line 


文件 file.line 里 就 是 调用 地 址 0xcf9c 对 应 的 代码 文件 和 对 应 的 行 
数 ， 注 意 这 里 输入 的 so 必须 是 obj 目 好 下 的 带 有 symbol file 的 so， 否 则 
解析 代码 文件 与 行 数 不 成 功 。 


6. 利 用 ndk-stack 还 原 堆栈 信息 


已 人 
站 令 如 下 : 
ndk-stack -sym libMemoryLeak.so -dump tombstone 01 > log.txt 


当 程 序 出 现 Native 层 的 Crash 时 ， 系 统 会 拦截 并 将 Crash 的 堆栈 信息 
放 到 /data/tomb-stones 目 录 下 ， 存 储 成 为 一 个 文件 ， 系 统 会 自动 循环 履 
盖 ， 并 且 只 会 保留 最 近 的 10 个 文件 。 如 何 将 这 里 的 信息 转换 为 实际 的 
代码 文件 可 以 使 用 ndk-stack 工 具 ， 这 个 工具 和 ndk- build 在 同一 个 目 孙 
下 。 注 意 ，-sym 后 面 的 so 文件 必须 是 obj 目 录 下 的 带 有 symbol file 的 动 
态 库 ，-dump 后 面 的 就 是 从 Android 设 备 中 取出 来 的 Crash 文 件 。 


13.1.4 Native 层 的 内 存 泄 漏 检 测 


上 一 节 中 完成 了 Java 层 内 存 泄漏 的 检查 与 修复 ， 本 节 将 带 着 大 家 
进行 Native 层 的 内 存 泄漏 检查 和 修复 。 本 节 会 从 两 个 层面 进行 介绍 ; 
第 一 个 层面 是 静态 检测 Native 层 的 内 存 泄漏 ， 可 以 作为 svn 或 者 git 提 交 
代码 的 检测 条 件 ; 第 二 个 层面 是 在 程序 运行 中 检测 内 存 泄漏 ， 相 较 于 
静态 检查 ， 这 个 层次 的 内 存 泄漏 检查 更 为 准确 。 


1.Native 代 码 的 静态 检测 


CppCheck 是 一 个 用 于 检查 C/C++ 代码 缺陷 的 静态 检查 工具 。 不 同 
于 C/C++ 编译 右 及 其 他 分 析 工 具 ，CppCheck 只 检查 编译 占 检 查 不 出 来 
的 bug， 不 检查 语法 错误 。 静 态 代 码 检 查 就 是 使 用 一 个 工具 检查 我 们 写 
的 代码 是 否 安全 和 健壮， 是 否 有 隐藏 的 问题 。 比 如 下 面 的 代码 : 


int n = 10; 
char* buffer = new char[n]; 
buffer[n] = 0; 


这 完全 符合 语法 规范 ， 但 是 静态 代码 检查 工具 会 提示 此 处 有 海 
出 。 也 就 是 说 ， 它 相当 于 一 个 更 加 严格 的 编译 合 。 目 前 使 用 比较 广泛 
的 C/C++ 静态 代码 检查 工具 有 Cppcheck 和 pc-lint 等 。pc-lint 是 资格 最 
老 、 最 强 有 力 的 代码 检查 工具 ， 但 是 是 收费 软件 ， 并 且 配 置 起 来 有 一 
点 磋 烦 。 而 Cppcheck 是 一 个 免费 开源 的 软件 ， 所 以 本 市 就 以 Cppcheck 
工具 为 例 来 讲解 如 何 对 Native 代 码 进 行 静态 检测 ， 以 及 如 何 针 对 检测 
出 来 的 问题 进行 修复 与 更 正 。 


首先 是 Cppcheck 的 安装 。Cppcheck 有 两 种 方式 可 以 供 开发 者 使 
用 : 一 种 是 GUI 的 方式 ， 男 外 一 种 是 命令 行 的 方式 。 本 书 中 所 有 的 使 
用 都 采用 命令 行 的 方式 来 介绍 。 可 以 下 载 cppcheck 的 源码 ， 然 后 目 己 
进行 配置 、 编 译 和 安装 ， 也 可 以 使 用 包 管 理工 具 (Mac 上 的 brew 、 
linux 上 的 apt-get 等 ) 直接 安装 cppcheck。 如 果 在 Linux 系 统 下 ， 可 以 通 
过 下 面 的 链接 来 下 载 源码 : 


http://sourceforge.NET/projects/cppcheck/files/cppcheck/ 


打开 上 述 链接 ， 选 择 对 应 的 版 本 ， 解 讨 。 接 下 来 进入 目 示 ， 然 后 
使 用 下 述 命令 进行 编译 和 安 净 : 


g++ -0 cppcheck -Ilib cli/*.cpp lib/*.cpp 
make install 


笔者 使 用 的 是 Mac 系 统 ， 最 方便 的 方式 是 使 用 brew 工 具 进 行 安 
装 ， 可 使 用 下 述 命令 来 安 又 cppcheck: 


sudo brew install cppcheck 


安装 成 功 之 后 ， 可 以 输入 cppcheck 命 令 ， 若 看 到 它 的 帮助 文档 ， 
则 代表 安装 成 功 。 这 个 工具 的 使 用 方法 非常 简单 ， 下 面 来 看 如 何 使 用 
cppcheck ° 


如 果 仅 有 一 个 文件 需要 检查 ， 可 以 直接 将 这 个 文件 写 到 cppcheck 
后 面 ， 命 令 如 下 : 


cppcheck memory_leak/native mem case/png_decoder.cpp 


如 果 目 隶 下 所 有 的 文件 都 需要 检查 ， 可 以 直接 将 要 检查 的 目录 放 
在 cppcheck 后 面 ， 这 样 它 就 可 以 递归 检查 这 个 目录 下 所 有 的 文件 了 ， 
并 且 会 将 进度 和 检测 结 采 直接 输出 到 屏幕 上 ， 如 下 : 


cppcheck ./memory_leak/ 


cppcheck 的 检测 结果 是 根据 我 们 设置 给 它 的 检查 规则 来 生成 的 ， 
cppcheck 提 供 的 检查 规则 定义 如 下 : 


error: 出 现 的 错误 ， 如 采 不 写 ， 则 是 默认 的 选项 。 
-warning: 为 了 预防 bug 防 御 性 编程 建议 信息 。 
style: 编码 格式 问题 (没有 使 用 的 函数 、 多 余 的 代码 等 )。 


-portablity: 移植 性 警告 。 该 部 分 如 果 移 植 到 其 他 平台 上 ， 可 能 
现 兼 容 性 问题 。 


:performance: 建议 优化 该 部 分 代码 的 性 能 。 
-information: 一 些 有 趣 的 信息 ， 可 以 忽略 不 看 。 


其 中 ，error 规 则 是 默认 的 选项 ， 一 般 可 以 开局 waming 级 别 的 检 
测 ， 代 码 如 下 : 


cppcheck --enable=all ./memory_leak/ 


如 有 果 要 想 把 进度 输出 到 屏幕 上 ， 并 把 最 终 检 测 的 结果 输出 到 文件 
中 ， 可 以 使 用 如 下 命令 : 


cppcheck --enable=all ./memory_leak/ 2> err.txt 


命令 行 中 的 2 代表 Shell 命 令 的 内 置 描 述 符 中 的 stderr， 即 标准 的 错 
误 输 出， 上 述 命 令 即 将 标准 的 错误 输出 到 errtxt， 接 着 打开 errtxt 束 可 
以 看 到 错误 信息 了 。 对 于 某 些 不 想 检 测 的 文件 或 者 路 径 ， 可 以 使 用 
config-exclude 参 数 指 出 ， 这 在 引用 一 些 第 三 方 库 源码 的 时 候 是 一 个 — 典 
型 的 应 用 场景 。 同 时 在 cppcheck 中 也 可 以 指定 输出 不 确定 的 信息 ， 这 
时 仅 需 要 把 inconclusive 参 数 加 上 ， 同 时 也 可 以 指定 标准 (比如 std 标 
准 、c99 标 准 、c11 标 准 ) ， 所 以 最 终 命令 如 下 : 


cppcheck --enable=warning --inconclusive --std=posix ./memory_leak/ 2> err.txt 


接 下 来 伪造 一 些 平 常 在 开发 中 偶尔 遇 到 的 问题 ， 并 使 用 上 述 的 
cppcheck 命 令 进 行 检 测 。 在 代码 仓库 的 PngPicDecoder 类 的 头 文件 中 声 
明 一 个 实例 变量 ， 代 码 如 下 : 


int bufferCursor ， 


在 构造 画 数 中 没有 初始 化 这 个 实例 变量 ， 此 时 cppcheck 会 报 出 错 
翅 警 告 ， 代 码 如 下 : 


[png_decoder.cpp 5]: (warning) Member variable 'PngPicDecoder::bufferCursor' is 
not initialized in the constructor. 


如 果 分 配 一 个 数组 类 型 的 buffer， 在 其 中 一 个 条 件 分 文 内 释放 ， 但 
ae cppcheck 也 可 以 检测 出 来 ， 代 码 如 


Short* buffer = new Short[1024] 
if(condition) { 
//Do Something 
delete[] buffer; 
} else { 
//Do AnotherThing 
} 


return; 


cppcheck 对 上 述 代 码 进 行 检测 之 后 ， 会 报 出 如 下 错误 : 


[png_decoder .cpp 34]: (error) Memory leak: buffer 


如 末 我 们 在 代码 中 的 局 部 变量 声明 了 一 个 数组 ， 但 是 还 没有 初始 
i 
虽 下 : 


Short* tmpBuffer = NULL 
if(condition) { 
tempBuffer = buffer; 


} 
tempBuffer[0] = 9; 

cppcheck 对 这 种 场景 会 以 错误 的 形式 报告 出 来 ， 代 码 如 下 : 
[png_decoder .cpp:31]: (error) Possible null pointer dereference: tmpBuffer 


如 果 代 码 中 的 局 部 变量 没有 初始 化 区 进行 使 用 ，cppcheck 也 会 报 
出 错误 ， 代 码 如 下 : 


int bufferCursor ， 
if(bufferCursor) { 

//Do Something 
} 


cppcheck 对 这 种 场景 下 的 错误 也 会 报 出 来 ， 代 码 如 下 : 


[png_decoder .cpp:22]: (error) Uninitialized variable: bufferCursor 


如 果 对 标准 库 中 的 一 些 API 理 解 有 问题 ， 可 能 会 写 出 如 下 代码 : 


const char* PngPicDecoder::getSstatisticsData() { 
string buriedPointsStr; 
buriedPointsSstr.clear(); 
string str = "B_0.000"; 
string comma = ",",; 
buriedPointsStr += str; 
buriedPointsStr += comma; 
char temp[256]; 
memset (temp,o0,256); 
snprintf(temp, 256, "%.3f", 0.1358); 
str = temp; 
buriedPointsStr += str; 
return buriedPointsStr.c_str(); 


上 述 代码 利用 string 的 拼接 功能 ， 将 很 多 统计 变量 按照 一 定 的 格式 
拼接 起 来 ， 最 终 调 用 c_str 函 数 返 回 C 类 型 的 字符 串 ， 但 是 会 问 外 界 暴 
露 接口 肯定 是 有 问题 的 。cppcheck 可 以 很 好 地 检查 出 这 种 类 型 的 错 
误 ，cppcheck 给 出 的 错误 如 下 : 


[png_decoder .cpp:56]: (error) Dangerous usage of c_str(). The value returned by 
c_str() is invalid after this call. 


上 面 列举 的 这 些 案例 ， 都 是 我 们 在 工作 中 不 小 心 导致 的 问题 ， 如 
果 使 用 cppcheck 工 具 在 提交 代码 之 前 检查 一 议 ， 会 对 整个 工作 效率 有 
很 大 提升 。 


2.Native 代 码 运 行 中 的 检测 


前 面 使 用 cppcheck 对 Native 层 的 代码 进行 了 静态 检测 。 但 是 ， 仅 仅 
靠 对 代码 的 静态 检测 是 远 远 不 够 的 ， 静 态 检 测 仅 能 解决 开发 人 员 的 编 


码 风 格 或 者 编码 漏洞 问题 。 真 正在 运行 过 程 中 出 现 的 内 存 泄漏 束 需 要 
靠 动 态 的 内 存 检测 工具 了 。 所 以 这 里 会 介绍 如 何 为 Native 层 的 代码 进 
行动 态 检 测 内 存 泄漏 。 在 Android 平 台 上 ， 比 较 好 用 又 可 靠 的 一 种 解决 
内 存 问 题 的 办 法 : 把 Android NDK 的 C/C++ 代码 移植 到 其 他 平台 上 并 运 
行 起 来 ， 然 后 使 用 该 平台 下 的 工具 (如 valgrind 等 非常 强大 的 工具 ) 进 
行 检 测 。 但 是 这 种 解决 办 法 对 于 一 个 持续 更 新 、 快 速 迭 代 的 产品 来 讲 
不 是 特别 合适 ， 因 为 需要 不 断 地 去 写 测试 用 例 ， 持 续集 成 需要 花费 很 
大 精力 。 当 然 ， 还 有 另外 一 种 解决 问题 的 方法 ， 那 就 是 将 其 他 平台 的 
一 些 工 具 移植 到 Android 上 ， 比 如 valgrind 台 可 以 用 在 Android 上 ， 但 由 
于 效率 太 低 ， 也 不 太 方 便 。 本 书 会 将 LeakTracer 这 一 Linux 平 台 上 常用 
的 hata leak 检 测 工 具 移 植 到 Android 平 台 上 ， 作 为 动态 检测 内 存 泄 
漏 的 工具 。 


LeakTracer 分 为 两 个 主要 部 分 : 第 一 部 分 是 对 应 用 程序 的 检查 ， 
将 LeakTracker 集 成 到 应 用 程序 中 ， 然 后 运行 应 用 程序 到 Android 平 台 ， 
执行 自己 的 测试 Case， 最 终 LeakTracer 会 将 内 存 泄漏 文件 放 到 指定 的 路 
径 下 ;第 二 部 分 是 解析 程序 ， 解 析 程 序 将 第 一 步 生 成 的 内 存 泄 漏 文件 
作为 输入 ， 并 利用 带 有 符号 表 (symbol fle) 的 动态 库 生 成 肉眼 可 读 的 
内 存 泄 漏 的 调用 堆栈 信息 。 


LeakTracer 的 原理 比较 简单 ， 第 一 部 分 是 重 写 了 
new\deletenew[]\delete[]\malloc\free 等 操作 符 ， 等 开发 者 使 用 
new\new[]\malloc 方 法 的 时 候 ，LeakTracer 利 用 系统 函数 取出 对 应 的 调 
用 堆栈 的 内 存 地 址 进行 存储 ， 等 程序 使 用 delete\delete[]\free 方 法 的 时 
候 ， 再 取出 调用 堆栈 的 内 存 地 址 和 之 前 分 配 的 调用 堆栈 的 内 存 地 址 进 
行 配 对 ， 如 果 没 有 配对 成 功 ， 即 为 内 存 泄漏 的 地 方 ， 最 终 将 所 有 内 存 
漆 漏 的 调用 堆栈 地 址 存储 到 内 存 泄 漏 文 件 中 。 


要 完成 第 一 部 分 的 功能 ， 需 要 将 LeakTracer 集 成 到 App 的 Native 
层 。 读 者 在 集成 的 时 候 ， 一 定 要 使 用 代码 仓库 中 的 LeakTracer 的 源 
码 ， 因 为 LeakTracer 要 针对 Android 平 台 做 一 些 特殊 的 改动 ， 其 中 有 两 
个 最 重要 的 改动 。 


.第 一 个 改动 : 在 MemoryTrace.cpp 的 init_no_alloc_allowed 方 法 
中 ， 使 用 dlsym 加 载 动 态 链接 库 时 ， 传 入 的 常量 由 RILD_NEXT 改 为 
RILD DEFAULT 。 


.第 二 个 改动 : 在 MemoryTrace.hpp 的 storeAllocationStack 方 法 中 ， 
将 获取 函数 调用 堆栈 的 方法 由 _ builtin frame_address 和 
builtin_return_address 改 为 Android 平 台 支 持 的 Unwind_Backtrace 。 


将 整个 LeakTracer 的 目 隶 放 入 Native 代 码 中 ， 然 后 在 Android.mk 中 
添加 以 下 代码 : 


LOCAL_C_INCLUDES += $(LOCAL_PATH)/libleaktracer/include 
LOCAL_SRC_FILES += \ 
./libleaktracer/src/AllocationHandlers.cpp \ 
./libleaktracer/src/MemoryTrace.cpp 


上 述 makefile 文 件 会 将 对 应 的 源码 文件 编译 进来 ， 然 后 吏 是 集成 阶 
段 了 。 在 JNI 层 的 一 个 文件 中 ， 加 入 以 下 代码 : 


JNIEXPORT jint JNICALL JNI_OnLoad(JavaVM* vm, void* reserved) { 
JNIEnVv* env = NULL,; 
if (vm->GetEnv((void**) &env, JNI_VERSION_ 1 4) != JNI_OK) { 
return -1; 


// leak tracer start recording 
leaktracer: :MemoryTrace: :GetInstance().startMonitoringAllThreads(); 


return JNI_VERSION 1 4; 


上 述 代 码 会 在 应 用 程序 加 载 这 个 so 包 ， 之 后 调用 LeakTracer 的 启动 
监测 的 方法 ， 将 整个 LeakTracer 局 动 起 来 ， 从 而 监测 所 有 的 内 存 分 配 
与 释放 。 在 程序 退出 之 前 ， 增 加 以 下 代码 的 调用 ， 束 可 将 有 内 存 泄漏 
的 地 方 写 入 文件 中 : 


JNIEXPORT void JNICALL Java com example _c_layer_NativeProcessor_destroy 
(JNIEnV * env, jobject obj) { 
const char *fPath = "/mnt/sdcard/mem leak.1lo0g",; 
leaktracer::MemoryTrace: :GetInstance().writeLeaksToFile(fPath); 


接 下 来 模拟 一 个 内 存 泄 漏 ， 该 泄漏 就 在 这 个 JNI 层 的 代码 调用 的 
png_decoder 类 中 ， 代 码 如 下 : 


int PngPicDecoder::openFile() { 
short* buffer = new short[1024]; 


return 1; 


很 显然 ， 只 要 执行 这 段 代 码 ， 束 会 产生 内 存 泄漏 。 最 后 需要 在 文 
件 Application.mk 中 加 入 以 下 这 行 代 码 : 


APP_OPTIM := debug 


上 述 这 行 代码 要 设置 编译 出 来 的 so 包 是 Debug 类 型 ， 否 则 不 能 取 
出 正确 的 调用 信息 。 如 果 不 想 在 Application.mk 中 设置 这 个 参数 ， 那 么 
人 
1 下 指令 : 


ndk-build NDK_DEBUG=1 


如 果 开 发 环境 是 在 Eclipse 下 ， 同 时 又 依靠 Eclipse 配置 的 NDK 来 编 
译 Sso 包 ， 那 么 就 需要 右 击 工 程 进 入 Properties， 然 后 找到 C/C++Build 选 
项 ， 将 Builder 中 的 复 选 框 去 掉 ， 在 Build command 中 输入 上 面 的 参数 即 


可 。 


将 整个 App 运 行 到 手机 上 ， 然 后 点 击 上 自己 的 测试 用 例 ， 待 退出 
后 ， 利 用 adb pull 命 令 将 SD 卡 路 径 下 的 mem_leak.log 拿 出 来 瓯 是 
LeakTracer 为 生成 的 内 存 泄漏 文件 了 。 


接 下 来 进入 第 二 阶段 ， 即 解析 内 存 泄漏 文件 成 为 肉眼 可 读 的 内 存 
分 配 堆栈 信息 。 使 用 代码 仓库 中 的 leakAnalysis.py 脚 本 来 分 析 堆 栈 信 
已， 这 个 脚本 需要 的 第 一 个 输入 是 编译 so 包 的 时 候 在 obj 目 未 下 带 有 
symbol fileHJlibMemoryLeak.so， 第 二 个 输入 是 上 一 步 生 成 的 内 存 泄漏 
文件 ， 然 后 运行 如 下 命令 : 


python leakAnalysis.py ./libMemoryLeak.so mem leak.1log 


要 想 正 确 执 行 上 述 脚本 ， 需 要 正确 配置 NDKROOT 这 个 环境 变 
量 ， 因 为 脚本 中 需要 用 NDK 里 提供 的 工具 进行 解析 符号 表 。 脚 本 执行 
完毕 之 后 ， 会 将 内 存 分 配 的 堆栈 信息 输出 到 屏幕 上 。 如 果 读 者 想 把 结 


果 放 到 文件 中 ， 可 以 直接 执行 如 下 命令 ， 这 个 脚本 会 接受 第 二 个 参数 
为 输出 内 存 泄 漏 信息 的 文件 : 


python leakAnalysis.py ./libMemoryLeak.so mem_leak,1og leak.txt 


lh 可 以 看 到 内 存 分 配 的 堆栈 信息 以 及 一 些 主要 信息 ， 
中: 


"Jeaked_bytes": 2048, 

"occurred time": "2017-06-14 17:32:40", 

"stack_list": [ 
"memory_leak/native_ mem case/png_decoder.cpp:18", 
"memory_leak/native_ mem case/NativeMemoryLeak.cpp:33" 


]， 
"unique_hash": "484FB1DOFFA75AA70F9FC51D7D453DCE" 


}, 
] 


以 上 代码 中 包含 全 的 几 个 重要 信息 为 洪 洗 的 对 守信 小 ` 泄漏 的 时 
则 ， 以 及 内 存 分 配 的 堆栈 信息 等 ， 还 有 一 个 哈 希 值 作为 唯一 标识 。 那 
在 Python 脚本 中 是 如 何 实现 解析 内 存 分 配 堆栈 信息 的 呢 ? 实际 上 是 使 
用 前 面 讲解 的 NDK 提 供 :HJaddr2line 工 具 1 将 调用 地 址 解析 为 代码 的 调用 
堆栈 信息 的 ， 可 以 先 打 开 第 一 步 产 生 的 mem_leak.log， 如 下 : 


# LeakTracer report diff_utc mono=1497335780.019908 
leak, time=96980.220532, stack=Qxcf9c 0xd10c 0xd480 Oxbe34 Oxc654, size=2048, 


个 信息 eis (time 以 秒 为 单位 ) 、 调 用 堆栈 的 地 址 信 
局 、 内存 沐 尖 的 天 小 等 实数 据 (data) 没有 任何 意义 。 脚 本 中 需 
th ee ah a 如 
果 使 用 前 面 讲解 的 addr2line 工 具 ， 则 代码 如 下 : 


NDK_GCC_TOOL_DIRECTORY=$NDKROOT/toolchains/arm-linux-androideabi-4.9/prebuilt 
/darwin-x86_64/bin/ 

$NDK_GCC_TOOL_DIRECTORY/arm-linux-androideabi-addr2line -e libMemoryLeak.so 
Oxcf9c 0xd10c Oxd480 QOxbe34 QOxc654 


首先 根据 NDKROOT 的 路 径 构造 出 GCC 工具 存在 的 路 径 ， 然 后 使 
用 addr2line 工 具 将 这 些 调 用 地 址 在 珊 有 Symbol file 的 so 中 找 出 真正 的 调 
用 堆栈 信息 ， 上 壕 命 令 执 行 结果 如 下 : 


/Native_mem case/libleaktracer/include/MemoryTrace.hpp:379 
/Native_mem case/libleaktracer/include/MemoryTrace.hpp:429 
/Native_mem case/libleaktracer/src/AllocationHandlers.cpp:40 


./native_mem case/png_decoder .cpp:18 
/Native_mem_ case/NativeMemoryLeak.cpp:33 


由 于 篇 幅 的 关系 ， 这 里 的 路 径 都 以 相对 路 径 标 识 ， 可 以 看 到 ， 几 
个 内 存 地 址 束 会 解析 出 几 个 源 文件 的 代码 行 数 的 调用 关系 。 这 里 可 以 
把 libleaktracer 的 前 绥 都 去 掉 ， 因 为 其 中 一 些 重 载 了 操作 符 ， 也 了 束 是 
说 ， 前 面 才 是 真正 业务 代码 的 泄漏 堆栈 信息 ， 而 在 Python 脚本 中 驶 把 
带 有 leaktracer 前 绥 的 调用 堆栈 去 择 了 。 第 二 步 的 原理 解释 完毕 了 ， 所 
以 最 方便 的 解析 方式 还 是 使 用 上 述 的 Python 脚本 。 


在 Android 平 台 使 用 LeakTracer 作 为 内 存 泄漏 的 检测 工具 是 比较 成 
熟 的 做 法 ， 读 者 可 以 参考 代码 仓库 中 的 源码 深入 理解 。 


13.1.5 ”breakpad 收 集 线 上 Crash 


breakpad 是 Google 提 供 的 一 父 包 含 客户 端 和 服务 端的 开源 组 件 ， 用 
于 收集 客户 端 Native 层 的 Crash。 读 者 可 以 从 Google Code 上 下 载 最 新 代 
码 ， 也 可 以 使 用 本 书 代码 目录 中 的 breakpad 源 码 ， 其 中 Google Code 上 
的 代码 地 址 为 : 


http://goo0gle-breakpad.googlecode.com/svn/trunk/ 


既然 breakpad 由 客户 端 和 服务 旭 端 两 部 分 组 件 组 成 ， 下 面 束 分 为 客 
户 端 和 服务 端 两 部 分 进行 介绍 。 


(1) 客户 端 部 分 


首先 将 breakpad 客 户 端 部 分 的 代码 集成 入 客户 端的 Native 代 码 中 ; 
然后 当 Native 层 发 生 Crash 行 为 的 时 候 ，breakpad 会 将 Crash 的 信息 以 二 
进 制 形 式 写 入 minidump 文 件 ， 最 后 客户 端 要 将 这 个 minidump 文 件 上 传 
到 服务 器 上 。 


(2) 服务 端 部 分 


首先 将 breakpad 服 务 端 工 具 编 译 出 来 ， 放 入 合适 的 目录 下 ; 然后 利 
用 dump_syms 工 具 将 客户 端 构建 的 带 有 symbol File 的 so 包 的 symbol File 
导出 到 指定 目录 ; 最 后 把 客户 端 上 传 的 minidump 文 件 和 symbol File 目 孙 
作为 输入 ， 利 用 minidump_stackwalk 工 具 生 成 Crash 现 场 。 


上 面 描述 了 整个 breakpad 的 工作 流程 ， 接 下 详细 讲解 整个 流程 的 细 
站 。 首 先 来 看 如 何 将 breakpad 的 代码 集成 入 我 们 的 客户 端 ， 一 般 集 成 第 
三 方 库 到 客户 端 中 使 用 的 方法 都 是 将 第 三 方 库 编译 为 静态 库 的 方式 放 
入 prebuilt 目 未 下 ， 然 后 在 Android.mk 中 进行 引用 ， 而 这 里 使 用 另外 一 
种 方式 ， 即 将 breakpad 中 的 源码 都 放 到 一 个 Android.mk 中 进行 编译 ， 要 
编译 breakpad， 必 须 使 用 的 ndk 版 本 在 rl0c 以 上 ， 因 此 需要 更 改 
Application.mk， 如 下 : 


APP_ABI := armeabi-v7a 
APP_STL := gnust] static 


APP_CPPFLAGS := -std=gnu++11 -fexceptions -D_STDC_LIMIT_MACROS 
NDK_TOOLCHAIN_ VERSION = 4.8 
APP_PLATFORM := android-9 


在 breakpad 目 如 的 android 目 隶 的 google_breakpad 目 好 下 , 将 
Android.mk 这 个 makefile 文 件 拿 出 来 放 到 一 个 我 们 自己 建立 的 
libbreakpad 目 录 下 ， 然 后 将 breakpad 目 录 下 的 src 目 录 也 找 贝 到 我 们 新 建 
的 这 个 目录 下 ， 这 样 libbreakpad 目 录 作 为 一 个 Module 束 建立 好 了 。 接 下 
来 需要 将 这 个 Module 包 含 到 整个 构建 脚本 中 。 打 开 最 外 层 的 
Android.mk， 加 入 以 下 内 容 : 


LOCAL_STATIC_LIBRARIES += libbreakpad_client 
LOCAL_C_INCLUDES += \ 

$(LOCAL_PATH)/libbreakpad/src \ 

$(LOCAL_ PATH)/libbreakpad/common/android/include 


接着 在 入 口 的 cpp 文 件 中 引入 breakpad， 引 入 头 文 件 如 下 : 


#include"client/linux/handler/exception_handler.h" 
#include"client/linux/handler/minidump_descriptor.h" 


和 然后 ， 在 加 载 so 的 回调 方法 中 将 breakpad 的 Crash 拦 截 姨 局 动 起 


static google_breakpad: :ExceptionHandler *handler = NULL,; 
JNIEXPORT jint JNICALL JNI OnLoad(JavaVM* vm, void* reserved){ 
const char* nativeLogPath = "/mnt/sdcard/appname/tombstones",; 
google_breakpad: :MinidumpDescriptor descriptor(nativeLogPath ) ， 
handler = new google_breakpad: :ExceptionHandler(descriptor， 
NULL, NULL, NULL, true, -1); 
return JNI_VERSION 1 6; 


之 后 执行 ndk-build， 并 构建 so 包 。 注 意 ， 这 个 ndk-build 必 须 是 rl0c 
版 本 以 上 ， 最 终 构 建 so 包 成 功 之 后 ， 可 以 在 libs 目 录 下 找到 so 包 ， 而 在 
obj 目 录 下 可 以 找到 名 称 相 同 的 男 外 一 个 so 包 ， 并 且 这 个 so 包 比 libs 目 录 
下 的 so 包 要 大 不 少 ， 这 是 为 什么 呢 ? 先 来 看 图 13-12 。 
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图 13-12 


如 图 13-12 所 示 ，obj 目 录 下 的 so 包 其 实 是 图 的 中 间 部 分 ， 包 括 应 用 
的 中 间 文 件 、breakpad 的 中 间 文 件 以 及 代码 调试 信息 ， 而 libs 目 录 下 的 
so 包 是 将 所 有 的 代码 调试 信息 消除 掉 (strip) 的 包 ， 是 最 终 要 集成 到 
App 中 分 发 给 用 户 使 用 的 。 使 用 breakpad 服 务 怖 端 编译 出 来 的 
dump_syms 工 具 将 obj 目 录 下 的 so 包 中 的 代码 调试 信息 部 分 解析 出 来 ， 
并 放 入 合适 的 路 径 下 。 注 意 ， 这 里 集成 到 App 里 的 so 必须 要 和 服务 器 端 
解析 symbol File 的 调试 信息 对 应 起 来 ， 否 则 解析 不 出 正确 的 方法 调用 堆 
栈 。 可 能 有 读者 会 想 ， 这 里 的 dump_syms 是 如 何 编译 出 来 的 呢 ? 其 实 很 
人 简单， 首先 找 一 台 Linux 机 器 ， 在 breakpad 目 录 下 执行 以 下 命令 : 


./configure && make 


之 后 在 breakpad 的 src/tools/linux/ 目 录 下 就 可 以 看 到 编译 出 来 的 
dump_syms 工 具 了 ， 同 时 在 src/processor/ 目 录 下 可 以 看 到 即将 用 到 的 
minidump_stackwalk 工 具 。 接 下 来 看 看 当 用 户 手中 的 客户 端 发 生 了 
Native 层 的 崩溃 上 时， 客户 端的 行为 是 什么 ， 如 图 13-13 所 示 。 


Application Breakpad Crash 


[全 eie[= Client 人 | [= etejil 


Crash! Breakpad Client writes 

minidump... 
Wp Submit it to Crash 

Collector 


图 13-13 


在 图 13-13 中 ， 当 客户 端的 Native 层 (Application Code) 发 生 衣 省 
的 上 时候， 配置 的 breakpad 会 将 崩 江 信息 拦截 下 来 ， 并 生成 一 个 二 进 制 
mini dump 文件 ， 最 后 客户 端 将 这 个 文件 上 传 到 专门 收集 与 处 理 般 演 信 
息 的 服务 器 上 ， 即 图 中 的 Crash Collector。 那 接 下 来 服务 器 会 如 何 做 
呢 ? 如 图 13-14 所 示 。 
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图 13-14 


在 图 13-14 中 ， 服 务 器 端 会 将 第 一 步 产生 的 代码 调试 信息 和 第 二 步 
客户 端 上 传 的 mini_dump 二 进 制 文件 作为 minidump_stackwalk 工 具 的 输 
入 ， 最 终 和 输出 肉眼 可 读 的 朋 演 现场 。 


至 此 ， 如 何 利 用 breakpad 收 集 Native 层 的 崩溃 就 介绍 完毕 了 ， 使 用 
工具 的 同时 ， 最 好 也 要 理解 清楚 原理 ， 这 样 可 以 在 遇 到 其 他 类 似 问 题 
的 时 候 触 类 劳 通 。 当 然 ， 使 用 第 三 方 收集 Native 层 崩溃 的 SDK 也 可 以 ， 
比如 CrashLytics 等 ， 但 是 理解 了 原理 之 后 ， 会 发 现 它们 的 本 质 其 实 部 是 
一 样 的 。 使 用 第 三 方 收集 Native 层 的 朋 汝 当然 有 好 处 也 有 坏处 ， 读 者 可 
以 根据 目 己 的 应 用 场景 来 决定 如 何 收集 Native 层 的 朋 并 。 


13.2 iiOS 使 用 Instruments 诊 断 应 用 


Instruments 是 一 个 很 灵活 的 、 强 大 的 工具 ， 是 性 能 分 析 、 动 态 跟 
踪 和 分 析 OS X 以 及 iOS 代 码 的 测试 工具 。 使 用 它 可 以 极为 方便 地 收集 
一 个 或 多 个 系统 进程 的 性 能 和 行为 的 数据 ， 并 能 及 时 跟随 时 间 产 生 的 
数据 ， 而 且 可 以 检查 所 收集 的 数据 ， 还 可 以 广泛 收集 不 同类 型 的 数 
据 。 此 外 ， 还 可 以 人 妃 踩 程序 运行 的 过 程 ， 这 样 Instruments 束 可 以 帮助 
我 们 了 解 用 户 的 应 用 程序 和 操作 系统 的 行为 。 本 广 以 视频 播放 姨 项 目 
为 例 ， 使 用 Instruments 提 供 的 工具 分 别 从 CPU 占 用 、 内 存 分 配 以 及 内 
存 泄漏 等 方面 进行 分 析 ， 最 后 会 在 Instruments 的 帮助 下 ， 比 较 播放 器 
中 的 解码 器 模块 使 用 硬件 解码 右 和 软件 解码 如 的 各 项 性 能 指标 。 


13.2.1 Debug Navigator 


在 介绍 Instruments 工 具 之 前 ， 先 看 Xcode 


中 左 侧 的 选项 ， 其 中 有 一 个 Show the Debug navigator， 选 中 它 ， 会 
显示 当前 调试 的 这 个 App 的 CPU 占用 情况 、 内 存 占 用 情况 
(Memory) 、 电 量 消耗 情况 (Energey Impact) 等 ， 如 图 13-15 所 示 。 
扬 品 QAG 至 口 卓 | 
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图 13-15 


扩 开 每 个 维度 都 会 有 具体 的 实时 数据 和 一 个 随 着 时 间 变 化 的 动态 
ed 线 Os 下 面 看 看 软件 解码 和 硬件 解码 在 CPU 维 度 的 占用 情况 ， 如 
13-16 所 示 。 


Usageover 48 
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35s 229s 


图 13-16 


在 图 13-16 中 ， 中 间 的 CPU 占 用 突然 下 降 就 是 由 软件 解码 器 切换 到 
硬件 解码 器 的 时 间 点 ， 前 半 部 分 是 使 用 软件 解码 器 的 CPU 占 用 变化 
图 ， 后 半 部 分 是 使 用 硬件 解码 器 的 CPU 占 用 变化 图 。 使 用 软件 解码 器 
的 时 候 ，CPU 的 占用 为 30% 左 右 ， 切 换 到 硬件 解码 絮 之 后 CPU 的 占用 下 


降 到 了 20% 左 右 。 笔 考 用 来 测试 的 视频 分 辨 率 为 640x360，fps 为 24， 测 
试 设备 是 iPhone 6S。 大 家 不 要 小 看 CPU 上 这 10% 的 占用 ， 如 果 在 一 个 直 
播 场景 下 ， 还 会 有 动画 、 聊 天 等 CPU 消耗 比较 大 的 线程 ， 而 这 10% 的 

CPU 就 很 有 可 能 影响 到 用 户 端 的 流畅 度 了 。 一 旦 观看 的 视频 分 辨 率 更 

高 、fps 更 大 ，CPU 的 对 比 会 更 加 明显 。 细 心 的 读者 可 能 会 发 现 ，CPU 
的 占用 图 一 直 是 波形 的 结构 ， 这 是 为 什么 呢 ? 大 家 还 记得 AVSync 模 块 
中 解码 线程 的 运行 策略 吗 ? 当 队 列 中 的 数据 到 达 MaxDuration 的 时 候 ， 

解码 线程 暂停 解码 ， 而 消费 者 线程 会 消费 队列 中 的 数据 。 当 队列 中 的 

数据 小 于 MinDuration 的 时 候 ， 解 码 线 程 会 继续 解码 ， 而 解码 线程 所 耗 
费 的 CPU 是 巨大 的 ， 所 以 当 解 码 线 程 运行 的 时 候 ，CPU 的 消耗 就 达到 

了 波峰 的 位 置 ， 当 解码 线程 暂停 的 时 候 ，CPU 的 消耗 则 达到 了 波 谷 的 

位 置 ， 若 将 时 间作 为 横 轴 来 看 CPU 占用 的 变化 情况 ， 就 形成 了 如 图 13- 
16 所 示 的 这 种 波形 图 。 下 面 对 比 硬件 解码 和 软件 解码 在 内 存 中 的 占用 

情况 ， 这 个 维度 的 变化 如 图 13-17 所 示 。 
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图 13-17 


在 图 13-17 中 ， 内 存 突然 从 50MB 以 上 下 降 到 10MB 左 右 就 是 从 软件 
解码 器 切换 到 硬件 解码 器 ， 前 半 部 分 是 使 用 软件 解码 器 时 占用 的 内 
存 ， 后 半 部 分 是 使 用 硬件 解码 器 时 占用 的 内 存 。 为 什么 内 存 的 占用 会 
突然 下 降 了 这 么 多 ? 原因 是 构造 的 VideoFrame 结 构 体 中 不 再 使 用 内 存 
中 存储 的 YUV 数 据 ， 而 使 用 iDOS 的 “ 主 存储 ?中 的 CVImageBufferRef。 切 
换 为 硬件 解码 器 后 ， 内 存 占用 的 下 降 对 于 整个 App 的 流畅 运行 也 是 一 件 
好 的 事情 ， 因 为 内 存 可 以 用 来 存储 更 多 的 图 片 缓存 等 数据 。 


在 Debug Navigator 中 还 有 一 些 其 他 指标 ， 比 如 电量 的 消耗 、 硬 盘 
1/O 的 占用 、 网 络 WO 的 占用 以 及 界面 刷新 频率 (FPS) 等 。 若 要 粗略 地 
了 解 一 个 App 的 运行 情况 ， 可 以 从 这 里 快速 得 到 结果 。 但 是 ， 如 采 想 发 


现 更 加 细 市 的 问题 或 者 要 解决 某 个 具体 的 问题 ， 那 么 就 需要 使 用 
Instruments 工 具 来 定位 问题 。 接 下 来 继续 使 用 Instruments 来 分 析 我 们 的 
视频 播放 器 项 目 。 


13.2.2 Time Profiler 


Time Profiler 工 具 是 用 来 分 析 方 法 的 执行 时 间 的 ， 它 可 以 找 出 哪些 
方法 以 及 哪些 线程 执行 的 时 间 比 较 长 ， 一 般 用 作 性 能 分 析 的 工具 。 使 
用 这 个 工具 时 ， 有 一 点 需要 注意 ， 即 测试 的 App 一 定 要 运行 在 真 机 设备 
上 ， 因 为 模拟 器 运行 在 Mac 电 脑 上 ， 而 电脑 的 CPU 运 行 速度 要 比 :OS 设 
备 的 快 ， 相 反 ，Mac 上 的 GPU 和 iOS 设 备 的 完全 不 一 样 ， 模 拟 器 不 得 已 
要 在 软件 层面 (CPU) 模拟 设备 的 GPU， 这 意味 着 GPU 相关 的 操作 在 
模拟 絮 上 运行 得 更 慢 ， 典 型 的 场景 如 视频 播放 器 项 目 、 视 频 孙 制 项 
目 ， 都 与 CAEAGLayer 的 绘制 相关 。 


在 Xcode 中 的 左上 方 Run 的 地 方 长 击 ， 然 后 在 弹出 的 表单 中 选择 
Profile，Xcode 会 编译 程序 并 启动 Instruments， 然 后 在 mstruments 界 面 中 
选择 Time Profiler 工 具 。 进 入 Time Profiler 界 面 之 后 点 击 左 上 和 角 的 
Recording 来 局 动 应 用 。 待 应 用 启动 之 后 ， 在 Call Tree 中 的 工具 已 经 默认 
选择 了 Separate by Thread 选 项 ， 这 个 选项 的 意思 是 会 按照 各 个 线程 来 显 
示 CPU 的 占用 情况 。 我 们 可 以 选择 Invert Call Tree 选项 ， 这 个 选项 的 意 
义 是 可 以 直接 看 到 方法 调用 路 径 最 深 的 方法 CPU 的 占用 情况 ;我 们 还 


会 选择 Hide System Libraries 选 项 ， 这 个 选项 的 意义 是 隐藏 掉 系 统 代码 
的 耗 时 ， 因 为 一 般 情况 下 我 们 仅 关 心目 己 的 业务 代码 的 CPU 耗 时 ， 所 
以 勺 选 这 个 选项 非常 有 利于 分 析 业 务 代 码 的 CPU 消耗 。 勾 选 之 后 并 运 
行 ， 可 看 到 如 图 13-18 所 示 的 界面 。 


Weightv Self Weight Symbol Name 
12.96s 100.0% Os Yvideo_player EK 
3.26s 25.1% Os pirame_worker_thread Ox44aede 
2.91S 22.4% Os pirame_worker_thread 0x44aedd 
2.83s 21.8% Os pirame_worker_thread 0x44aedf 
1.38s 10.6% Os bp-[AVSynchronizer decodeFrames] 0x44aee0 
641.00 ms 4.9% Os b_dispatch_worker_threagd3 Ox44aed3 
606.00 ms 4.6% Os b_dispatch_worker_threagd3 Ox44aed2 
573.00 ms 4.4% Os b_dispatch_worker_thread3 Ox44aed0 
549.00 ms 4.2% Os AURemotelo::IOThread::Run Ox44aef4 
170.00 ms 1.3% Os pMain Thread Ox44aec2 
35.00 ms 0.2% Os b_dispatch_worker_thread3 Ox44aecf 
12.00 ms 0.0% Os bp-[AVSynchronizer decodeFramesWithDuration:] Ox44aee1 
3.00 ms 0.0% Os PGenericRunLoopThread::Entry Ox44aee2 


图 13-18 


图 13-18 是 使 用 软件 解码 的 视频 播放 器 播放 80s 的 视频 。 各 个 线程 的 
CPU 占用 情况 ， 前 三 个 可 能 看 起 来 比较 奇怪， 因为 我 们 并 没有 局 动 这 
样 的 线程 ， 而 且 还 占用 了 这 么 多 的 CPU。 其实 这 是 FFmpeg 为 解码 开辟 
的 三 个 异步 解码 线程 ， 并 且 这 三 个 线程 占用 了 最 多 的 CPU 时 间 片 。 接 
着 来 看 AVSync 模 块 的 decodeFrames 方 法 ， 它 就 是 我 们 目 己 开局 的 解码 
线程 ， 相 较 而 言 ， 这 个 占用 的 CPU 时 间 厂 也 非常 多 ， 所 以 可 以 看 到 整 
个 解码 共 占 用 了 整个 App 中 的 82.5% 的 CPU 时 间 片 。 至 于 接 下 来 的 两 个 
dispatch worker thread， 是 VideoOutput 模 块 中 的 泻 染 线程 ， 由 于 泻 染 线 
程 使 用 的 是 NSOperationQueue， 所 以 也 可 以 看 到 这 个 线程 模型 的 内 部 
实现 开 司 了 多 个 worker 来 轮 询 Queue 中 的 Operation。 最 后 是 
AURemoteIlO 这 个 首 频 播放 的 线程 所 占用 的 CPU 时 间 片 ， 由 于 
AudiooOutput 模 块 使 用 的 是 AUGraph， 而 AUGraph 是 靠 RemoteIO Unit 来 
驱动 的 ， 所 以 展示 在 这 里 的 线程 名 字 束 是 AURemotelO: : IOThread: 
Run。 后 面 还 有 其 他 线程 ， 比 如 MainThread 等 ， 占 用 CPU 的 时 间 片 惑 比 
较 少 了 。 基 于 此 ， 可 以 分 析出 ， 时 间 的 消耗 大 部 分 都 花费 在 了 解码 线 
程 上 ， 那 么 如 何 优化 呢 ? 使 用 硬件 解码 代替 软件 解码 ， 可 以 减少 对 解 
码 线程 的 CPU 时 间 所 的 分 配 ， 下 面 来 看 将 视频 播放 硕 中 的 解码 模块 替 
换 为 硬件 解码 方案 的 Time Profiler 图 ， 如 图 13-19 所 示 。 


图 13-19 展 示 的 是 将 解码 器 模块 的 实现 由 软件 解码 器 替换 为 便 件 解 
码 器 播放 80s 后 各 个 线程 所 占用 CPU 时 间 片 的 情况 。 最 明显 的 是 整个 
App 被 分 配 到 的 时 间 片 只 有 6.18s， 比 使 用 软件 解码 器 少 了 一 半 的 时 间 ， 
并 且 解 码 线程 所 占用 的 CPU 时 间 片 也 大 大 减少 了 。 同 时 也 完全 可 以 印 
证 了 13.2.1 节 中 CPU 的 占用 从 30% 下 降 到 20% 的 原理 。 这 只 是 通过 Time 
Profiler 检 查 与 验证 这 种 大 模块 的 蔡 换 与 优化 ， 对 于 一 些小 的 细节 性 优 
化 ， 比 如 普通 的 Queue 更 改 为 Blocking 类 型 的 Queue， 也 可 以 让 CPU 占用 
降低 。 


Weightv Self Weight Symbol Name 


Yvideo_player (7332) + 


1.70s 27.4% Os bp-[AVSynchronizer decodeFrames] Ox44b030 
855.00 ms 13.8% Os b_dispatch_worker_thread3 Ox44b003 
819.00 ms 13.2% Os b_dispatch_kevent_worker_thread 0x44b002 
687.00 ms 11.1% Os b_dispatch_kevent_worker_thread 0x44b000 
652.00 ms 10.5% Os b_dispatch_worker_thread3 Ox44b001 
649.00 ms 10.5% Os PAURemotelO::IOThread::Run Ox44b0O42 
643.00 ms 10.4% Os b_dispatch_worker_thread3 Ox44afff 
166.00 ms 2.6% Os pMain Thread Ox44afee 
6.00 ms 0.0% Os bp-[AVSynchronizer decodeFramesWithDuration:] Ox44b031 
6.00 ms 0.0% Os PGenericRunLoopThread::Entry Ox44b032 


图 13-19 


Time Profiler 工 具 可 以 用 来 检测 系统 的 性 能 条 贷 ， 根 据 线程 以 及 方 
法 的 耗 时 情况 ， 开 发 人 员 可 以 合理 优化 目 己 的 App， 提 升 用 尸体 验 。 但 
征 一 定 要 注意 的 是 ， 优 化 代码 是 在 代码 运行 正确 的 基础 之 上 的 ， 所 以 
一 定 要 对 修改 代码 的 影响 部 分 进行 充分 测试 。 


13.2.3 Allocations 


管理 内 存 是 App 开 发 中 最 重要 的 一 个 方面 ， 在 音 视 频 的 开发 中 ， 内 
存 管理 更 是 非常 重要 。 相 较 于 电脑 ， 移 动 设备 内 存 是 更 紧缺 的 资源 ， 
在 iOS 的 开发 中 ， 开 发 者 通常 使 用 Instruments 里 的 Allocations 工 具 来 定 
位 和 找 出 减少 内 存 使 用 的 方式 ， 比 如 可 能 通过 改进 程序 架构 和 算法 来 
实现 。 但 是 ， 再 好 的 App 设 计 都 会 被 不 同 的 内 存 问 题 困 扰 。 


打开 Allocations 界 面 ， 运 行 应 用 程序 ， 然 后 选择 Generrations 快 照 工 
具 来 完成 本 市 的 学 习 。 在 进入 播放 界面 之 前 ， 先 来 做 一 个 快照 (点 击 
Mark Generation 按 钮 ) ， 然 后 进入 播放 界面 播放 视频 ， 在 播放 视频 过 程 
中 再 做 一 个 快照 ， 最 后 退出 播放 界面 ， 并 做 一 个 快照 ， 如 图 13-20 所 
示 “。 
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在 图 13-20 中 ， 从 下 方 区 域 可 以 看 到 生成 的 三 个 快照 ， 在 每 个 快照 
的 Growth 这 一 列 ， 可 以 点 击 每 一 行使 其 展开 ， 这 样 就 可 以 看 到 这 个 快 
照 增长 的 内 存 有 哪些 ， 对 比 快照 A 和 快照 C 可 以 发 现 有 没有 内 存 泄漏 
因为 A 和 C 恰 好 是 进入 播放 页 面 和 退出 播放 页 面 ， 如 果 在 Growth 这 一 列 
中 看 到 有 自己 分 配 的 对 象 还 没有 被 释放 ， 那 么 就 可 能 是 内 存 泄漏 ， 可 
以 进一步 分 析 。 


当然 ， 内 存 占 用 较 大 也 不 一 定 是 坏事 ， 这 就 古 所 谓 的 空间 和 时 间 
的 转换 问题 ， 对 于 每 一 个 App， 应 该 根据 目 己 的 场景 来 合理 使 用 内 存 。 


像 拉 流 播放 器 项 目 中 ， 如 果 MaxBufferDuration 设 置 的 大 一 些 ， 就 会 使 
得 整个 程序 占用 内 存 大 一 些 ， 不 会 因为 网 络 的 拌 动 产生 卡 顿 现象 ， 但 
是 ， 如 有 果 当 用 户 看 了 儿 秒 钟 就 退出 了 ， 那 么 就 浪 费 了 用 户 的 网 络 带 
宽 ， 所 以 对 于 这 种 情况 ， 束 应 该 根据 目 己 的 产品 场景 来 设置 视频 缓存 
长 度 的 大 小 。 而 在 普通 的 OS 开发 中 常 第 会 过 到 类 似 问题 ， 比 如 图 片 组 
存 的 场景 ， 如 琳 缓 存 设置 太 小 ， 束 有 可 能 使 得 图 片 重新 下 载 率 比较 
高 ; 如 果 设 置 过 大 ， 重 新 下 载 率 降低 ， 但 是 占用 内 存 义 升 高 ， 所 以 也 
应 该 根据 产品 场景 来 决定 如 何 设置 独 片 缓存 的 大 小 。 总 之 ，App 占 用 内 
存 不 是 越 小 越 好 ， 而 是 应 合理 为 好 ， 读 者 可 以 回顾 一 下 目 己 产品 对 于 
内 存 使 用 的 策略 ， 是 否 有 该 调整 的 地 方 。 


13.2.4 Leaks 


内 存 泄漏 (Memory Leak) 是 指 程序 在 申请 内 存 之 后 ， 无 法 释放 已 
申请 的 内 存 空间 ， 一 次 内 存 泄漏 危害 可 以 忽略 ， 但 内 存 泄 漏 堆 积 后 果 
是 很 严重 的 ， 最 终 会 造成 内 存 淤 出 ， 人 致 使 整个 程序 崩溃 。 在 音 视 频 开 
发 过 程 中 ， 一 旦 音频 帧 数据 或 者 视频 帧 数据 有 泄漏 ， 会 使 得 整个 内 存 
凋 升 严重 。 内 存 泄 漏 一 般 分 为 以 下 四 种 情况 。 


(1) 常 发 性 内 存 港 沁 

发 生 内 存 泄 漏 的 代码 会 被 多 次 执行 到 ， 每 次 家 执行 的 时 候 都 会 导 
致 一 块 内 存 油 漏 。 

(2) 偶发 性 内 存 泄 漏 


发 生 内 存 泄 漏 的 代码 只 有 在 某 些 特定 环境 或 操作 下 才 会 发 生 。 御 
发 性 和 偶发 性 是 相对 的 。 对 于 特定 的 环境 ， 偶 发 性 的 也 许 束 变 成 了 常 
发 性 的 。 所 以 测试 环境 和 测试 方法 对 检测 内 存 泄漏 至 天 重要 。 


(3) 一 次 性 内 存 泄漏 


发 生 内 存 泄漏 的 代码 只 会 被 执 行 一 次 ， 或 者 由 于 算法 上 的 缺陷 ， 
会 导致 有 一 块 且 仅 一 块 内 存 发 生 泄 漏 。 比 如 ， 在 类 的 构造 函数 中 分 配 
闪存， 在 术 构 男 数 中 部 没有 释放 该 门 存 ， 所 以 闪存 兴 漏 只 会 发 生 一 
;办 。 


(4) 隐 式 内 存 泄漏 


程序 在 运行 过 程 中 不 停 地 分 配 内 存 ， 但 是 直到 结束 的 时 候 才 释放 
内 存 。 严 格 来 说 ， 这 里 并 没有 发 生 内 存 泄漏 ， 因 为 最 终 程序 释放 了 所 
有 申请 的 内 存 。 但 是 ， 对 于 一 个 服务 器 程序 ， 和 需要 运行 几 天 、 几 周 甚 
至 儿 个 月 ， 不 及 时 释放 内 存 也 可 能 导致 最 终 耗 尽 系统 的 所 有 内 存 。 所 
以 ， 我 们 称 这 类 内 存 证 漏 为 隐 式 内 存 泄漏 。 


从 用 户 使 用 程序 的 角度 来 看 ， 内 存 泄 漏 本 身 不 会 产生 什么 危害 ， 
作为 一 般 用 户 ， 根 本 感觉 不 到 内 存 泄 漏 的 存在 。 真 正 有 危害 的 是 内 存 
湾 漏 的 堆积 ， 这 会 消耗 尽 系统 所 有 的 内 存 。 从 这 个 角度 来 说 ， 一 次 性 


内 存 泄漏 并 没有 什么 危害 ， 因 为 它 不 会 堆积 ， 而 隐 式 内 存 泄漏 危害 则 
非常 大 ， 因 为 较 之 于 常 发 性 内 存 江油 和 偶发 性 内 存 泄漏 ， 它 更 难 入 从 
测 到 。 


下 面 介 绍 Instruments 里 的 Leaked 的 用 法 。 运 行 视频 播 放屁 项 目 ， 然 
后 看 到 如 图 13-21 所 示 的 界面 。 


国 Il 是 ie6F ) vi E Run 1 of 1 | 00:01:18 


图 13-21 


在 图 13-21 中 ， 上 面 那 一 行 是 内 存 和 匿名 虚拟 内 存 的 占用 情况 ， 下 
面 这 一 行 是 泄漏 的 检查 ， 工 具 默 认 每 10s 检 查 一 次 ， 若 这 里 看 到 的 都 是 
对 号 ， 则 代表 没有 任何 内 存 泄漏 ， 证 明 这 个 App 运 行 良好 。 但 是 ， 为 了 
演示 如 何 利用 这 个 工具 来 分 析 音 视频 中 的 内 存 泄漏 ， 玖 需要 模拟 一 个 
内 存 泄 漏 ， 人 然后 使 用 工具 进行 检测 。 更 改 VideoDecoder.m 中 的 
closeAudioStream 方 法 ， 注 释 挥 其 中 释放 的 AVCodecContext 控 作 ， 代 码 
如 下 : 


- (void) closeAudioStream 
//1: 释 放 重 采样 相关 的 资源 
//2 :释放 AudioFrame 
//if (_audioCodecCtx) { 
//avcodec close(_audioCodecCtx); 
//_audiocodecCtx = NULL; 
//} 


} 


closeAudioStream 方 法 的 第 三 步 是 释放 掉 音 频 流 的 Codec 上 下 文 ， 
现在 注释 掉 这 四 行 代 码 ， 然 后 重新 进行 Profile， 并 进入 检查 内 存 泄 漏 的 
界面 ， 运 行程 序 ， 点 击 观看 视频 按钮 ， 观 看 20s 后 退出 视频 播放 界面 ， 
可 以 看 到 内 存 泄 漏 ， 如 图 13-22 所 示 。 


© 


竺 退出 播放 器 界面 之 后 ， 发 生 了 内 存 泄漏 〈 出 现 了 错 号 ) ， 点 击 
这 个 按钮 ， 会 目 动 将 泄漏 的 调用 堆栈 显示 出 来 ， 如 图 13-23 所 示 。 


点 击 每 个 泄漏 的 内 存 ， 在 右 侧 都 会 显示 它 的 调用 堆栈 。 从 图 13-23 
中 可 以 看 到 ， 很 多 内 存 块 的 泄漏 都 与 VideoDecoder 类 中 的 
0 
0 不 : 


Leaked Object # Address Sizev Responsible Library Responsible Frame 
Malloc 448.00 KiB 1 0x106720000 @ “ 


PMalloc 8.00 KiB 2 < multiple > 16.00 KiB video_player av_malloc 
Malloc 8.00 KiB 1 Ox10308ea00 8.00 KiB video_player av_malloc 
Malloc 4.00 KiB 1 0x103094200 4.00 KiB video_player av_malloc 
Malloc 4.00 KiB 1 0x103095200 4.00 KiB video_player av_malloc 
Malloc 4.00 KiB 1 Ox103092a00 4.00 KiB video_player av_malloc 
Malloc 4.00 KiB 1 0x10308d000 4.00 KiB video_player av_malloc fig 
Malloc 2.00 KiB 1 Ox103083600 2.00 KiB video_player av_malloc 
Malloc 2.00 KiB 1 Ox103093a00 2.00 KiB video_player av_malloc avcodec_open2 
Malloc 1.00 KiB 1 0x103083e00 1.00 KiB video_player av_malloc -[VideoDecoder openAudioStream] 
Malloc 1.00 KiB 1 0x103083200 1.00 KiB video_player av_malloc | 
Wabioc OD.ies ED SIU nn a Sa -[AVSynchronizer openFile:usingHWCodec:parameters:error:] 
Malloc 512 Bytes 1 0x102919e50 512 Bytes video_player av_malloc 34-[videoplayerViewController start] block invoke 
Mallac 512 Rvtes 1 0x10291a900 512 Rvtes video nlaver av malloc 2 时 


图 13-23 


int openCodecErrCode = 9; 

if ((openCodecErrCode = avcodec open2(codeccCtx, codec, NULL)) < 0){ 
NSLog(@"Open Audio Codec Failed %s", av_err2str(openCodecErrCode)); 
return NoO; 


} 


从 上 述 代码 中 可 以 看 到 ， 是 因为 这 里 打开 了 音频 Codec 的 上 下 文 ， 
而 最 后 我 们 没有 释放 掉 而 导致 的 内 存 泄 漏 。 试 着 将 代码 恢复 回来 ， 再 
进行 内 存 泄漏 的 检查 ， 就 没有 问题 了 。 对 于 内 存 泄 漏 ， 原 因 有 很 多 
种 ， 笔 者 也 只 是 以 FFmpeg 的 API 为 例 进行 了 讲解 。 由 于 ARC 的 内 存 释 
放 机 制 使 用 的 是 自动 引用 计数 的 方式 ， 所 以 ， 一 旦 存在 循环 引用 ， 就 
肯定 会 导致 内 存 泄漏 。 一 般 情 况 下 ， 将 其 中 的 一 个 对 象 中 的 变量 设 为 
weak， 不 让 它 出 现在 保留 周期 中 即 可 解决 问题 。 


13.3 本章 小 结 


本 章 主 要 介绍 了 日 常 工 作 中 用 到 的 工具 ， 首 先 介 绍 了 Android 平 台 
下 常用 的 工具 ， 重 点 介绍 了 了 ADB 工具 的 使 用 以 及 Java 层 和 Native 层 内 
存 泄漏 的 检测 ， 当 然 还 有 NDK 工 具 的 使 用 ， 读 者 可 以 利用 NDK 的 工具 
方便 地 排查 一 些 开 发 中 的 问题 。 其 次 ， 介 绍 了 ioOS 平 台 下 强大 的 
Instruments 工 具 ， 分 别 从 内 存 、CPU 负 载 等 方面 进行 了 介绍 与 分 析 。 
其 实 某 一 些 工 具 根据 工作 场景 的 不 同 ， 本 章 也 并 没有 介绍 得 很 详细 ， 
比如 ADB 中 的 pm 与 am， 但 是 读者 掌握 了 本 章 的 内 容 之 后 ， 可 以 很 快 
地 使 用 更 多 的 工具 ， 不 论 是 开发 人 员 还 是 测试 人 员 ， 在 工作 中 利用 好 
这 些 工具 都 可 以 提升 自己 的 工作 效率 ， 希望 大 家 深入 学 习 ， 好 好 理解 
并 运用 到 工作 中 。 


附录 A ”通过 Ne10 的 交叉 编译 输 入 理解 ndk-build 


A.1 Nel0 简 介 


目前 大 部 分 智能 手机 已 经 配备 了 高 清 摄 像 头 、 高 保 真 麦克 风 ， 由 
此 而 市 来 的 声音 类 应 用 与 图 像 类 应 用 越 来 越 普遍 ， 而 本 书 所 讲解 的 就 
是 基于 移动 平台 的 音 视 频 类 应 用 的 开发 。 但 是 ， 在 处 理 这 些 音 视 频数 
据 的 时 候 ， 单 纯 依靠 现 有 CPU 的 计算 能 力 是 远 远 不 够 的 ， 所 以 对 于 一 
个 首 视频 应 用 来 讲 ， 提 高 性 能 是 永 无 止境 的 。 在 视频 处 理 方面 ， 多 会 
使 用 OpenGL ES 技术 ， 利 用 显卡 的 并 行 计算 能 力 来 提高 处 理 图 像 或 视 
频 的 速度 ， 但 是 在 音频 处 理 方面 却 很 少 有 比较 成 熟 的 技术 供 开 发 者 使 
用 。ARM NEON 技 术 采 用 SIMD ( 单 指令 ， 多 数据 ) 体系 结构 ， 可 以 有 
效 提升 多 媒体 和 信号 处 理应 用 程序 的 性 能 ， 从 而 增强 用 户 体验 。 同 
上 时，NEON 技 术 与 ARM 处 理 器 紧密 结合 ， 提 供 单 指令 流 和 内 存 的 统一 
视图 ， 从 而 能 够 提供 一 个 具有 更 简单 工具 流 的 开发 平台 。 由 于 目前 市 
面 上 的 Android 设 备 和 iOS 设 备 使 用 的 都 是 ARM 架 构 的 芯片 ， 所 以 在 音 
视频 处 理 过 程 中 使 用 ARM 提 供 的 NEON 指 令 集 来 加 速 运算 是 一 件 非 常 
有 意义 的 事情 。 但 是 ， 开 发 者 要 从 头 开始 编写 很 多 基础 的 Math 功 能 以 
及 信号 处 理 的 FFT、FIR、IIR 等 滤波 絮 ， 这 基本 上 是 不 现实 的 事情 ， 所 
以 Ne10 应 运 而 生 。 


Ne10 是 由 ARM 主 导 开 发 的 一 个 开源 软件 库 。 该 库 则 在 提供 一 系列 
通用 的 、 基 于 ARM NEON 架 构 并 且 经 过 深度 优化 的 函数 集合 。 通 过 调 
用 这 些 库 函 数 ， 可 以 让 软件 开发 人 员 免 于 编写 重复 的 底层 汇编 代码 ， 
同时 也 能 充分 利用 ARM NEON SIMD 指 令 的 并 行 运算 能 力 。Nel0 的 主 
要 目 孙 结构 包括 : doc (文档 ) 、inc ( 头 文件 目录 ) 、samples (示例 
目录 ) 、android 〈 安 章平 台 下 的 动态 库 ) 、common (基础 座 ) 和 
modules (模块 目录 ) 。 部 分 目录 会 在 后 续 章 节 中 逐一 进行 介绍 ， 这 里 
我 们 来 看 一 下 modules 目录 下 的 结构 。 在 modules 目 隶 下 有 三 个 目录 , 功 


math 数 学 模块 : 主要 包含 天 量 /矩阵 数学 运算 。 


.dsp 数 字 信 和 号 处 理 模 块 : 主要 包含 FFT 快 速 傅 里 时 变换 ， 以 及 部 分 
FIR/ITR 滤 波 函 数 。 


imgproc 图 像 处 理 模 块 : 主要 包含 图 像 缩放 、 旋转 等 后 处 理 函 数 。 


A.2 编译 和 运行 官方 Demo 


A.2.1 安装 cmake 


Ne10 的 编译 是 基于 cmake 编 译 的 。 首 和 完 ， 开 发 者 需要 在 开发 环境 中 
安装 cmake， 注 意 一 定 要 安装 命令 行 方式 的 cmake， 不 要 安装 图 形 化 界 
面 的 cmake。cmake 的 全 称 是 cross platform make， 从 其 全 称 上 可 以 看 出 
它 是 一 个 跨 平台 的 编译 工具 。 由 于 各 个 平台 的 编译 环境 与 构建 语法 不 
同 ， 所 以 开发 者 开发 一 个 跨 平 台 的 公共 库 或 者 软件 是 一 件 很 困难 的 事 
情 。 而 cmake 可 以 使 用 统一 的 语法 编译 出 多 个 平台 的 makefile 文 件 或 
project 文 件 ， 再 执行 make 命 令 就 可 以 编译 出 目标 包 。 如 何 安装 cmake 
呢 ? 在 Mac OS X 系 统 下 ， 开 发 者 直接 使 用 brew 进 行 安装 cmake 即 可 : 


brew install cmake 


A.2.2 ”编译 NE10 

安装 好 cmake 之 后 ， 就 可 以 编译 Ne10 这 个 库 了 。 首 先进 入 Nel10 的 
根 目 录 ， 然 后 进入 doc 目 录 ， 打 开 building.md 文 件 ， 在 该 文件 中 可 以 找 
到 对 于 在 Android 平 台 下 编译 NE10 的 帮助 。 编 译 步骤 如 下 : 


1) 建立 build 目 录 ， 并 进入 这 个 目录 。 


mkdir build && cd build 


2) 将 NDK 目 录 配 置 到 ANDROID_NDK 变 量 中 。 


export ANDROID_ NDK=/absolute/path/of/android-ndk 


3) 指定 编译 的 目标 平台 是 armv7， 当 然 ， 也 可 以 指定 为 aarch64。 


export NE10_ANDROID_TARGET_ARCH=armv7 #Can Also be "aarch64" 


4) 指定 cmake 的 配置 文件 路 径 ， 使 用 cmake 生 成 对 应 平台 的 
makefile 文 件 。 


cmake DCMAKE TOOLCHAIN_ FILE=../android/android config.cmake .. 


5) 执行 make 指 令 ， 编 译 对 应 平台 下 的 包 。 


make 


make 命 令 运行 完毕 后 ， 如 琳 没 有 出 现 错误 日 志 ， 束 代表 Ne10 编 详 


A.2.3 ”运行 官方 Demo 


开发 者 可 以 进入 build 目 录 下 ， 该 目录 就 是 编译 的 目标 目录 。 该 目 
录 下 有 一 个 android 目 录 ， 这 个 android 目 录 下 有 一 个 NE10Demo， 它 就 
是 运行 在 Android 设 备 上 的 应 用 程序 。 开 发 者 可 以 将 NE10Demo 中 的 jni 
目录 下 的 libNE10_test_demo.so 取 出 ， 放 到 工程 下 的 libs 中 的 armeabi-v7a 
目录 下 ， 然 后 将 工程 导入 IDE 中 ， 并 运行 。 


官方 的 这 个 Demo 工 程 是 使 用 WebView 来 展示 界面 的 ， 从 jni 里 的 源 
码 中 可 以 看 到 ，Ne10 会 利用 目 己 的 单元 测试 用 例 来 测试 Ne10 的 性 能 ， 
并 与 CPU 的 运行 的 速度 做 对 比 。 我 们 可 以 在 Java 层 代码 中 打 一 个 断 点 来 
0 默认 的 测试 函数 是 abs 这 个 函数 ， 测 试 
结果 如 下 : 


{ "name" : "test_abs_case0 1", "time_c" ; 11441, "time_neon" : 1448 },? 
{ "name" : "test_abs_case0 2", "time _c" :; 8289, "time_ neon" : 1858 }, 

{ "name" : "test_abs_case0 3", "time_c" :; 11193, "time_neon" : 2781 }, 
{ "name" : "test_abs_case0 4", "time_c" : 13575, "time_neon" : 2229 } 


从 以 上 代码 中 可 以 看 到 ，abs 这 个 函数 利用 neon 加 速 之 后 的 结果 是 
纯 使 用 CPU 计算 速度 的 5 倍 以 上 。 如 果 想 得 到 更 多 其 他 函数 的 测试 结 
条， 该 者 可 以 目 己 去 改动 jnji 层 的 测试 用 例 调用 ， 然 后 使 用 cmake 以 及 
make 指 令 编 译 出 so 包 ， 运 行 束 可 以 得 到 结 有 末了。 


A.3 通过 Nel0 的 编译 来 看 ndk-build 的 执行 过 程 


A.3.1 ”如 何 构 建 基于 Ne10 的 应 用 


Nel10 的 官方 Demo 运 行 成 功 之 后 ， 如 条 开发 兰 想 开发 基于 Nel0 的 应 
用 ， 那 么 该 如 何 做 呢 ? 依据 之 前 的 开发 经 验 ， 最 简单 的 方式 忠 古 获取 
include 文 件 与 静态 库 文件 ， 然 后 放 入 Native 代 码 中 ， 分 别 在 编译 和 链接 
阶段 找到 这 两 个 文件 束 可 。 具 体 做 法 如 下 。 


先进 入 build 目 录 中 ， 找 到 modules 目 录 下 的 libNE10.a， 这 就 是 我 们 
想 要 的 静态 库 文 件 。 那 头 文件 在 什么 位 置 呢 ? 就 在 主 目录 下 的 inc 
(include) 目 孙 中 ， 这 个 目 孙 里 惑 有 我 们 编译 阶段 需要 的 头 文件 。 按 
照 之 前 的 目 孙 构建 方式 ， 我 们 将 头 文件 和 静态 库 文 件 放 入 Native 代 码 
中 ， 再 开始 开发 基于 Nel0 的 应 用 即 可 。 


A.3.2 ”深入 理解 Nel0 的 交叉 编译 


笔者 曾 在 GitHub 上 就 Ne10 在 Android 平 台 的 编译 和 使 用 与 Ne10 的 作 
者 之 一 Joe Savage 有 过 比较 多 的 交流 。Joe Savage 是 一 个 非常 nice 的 人 ,， 
通过 与 他 的 多 次 讨论 ， 笔 者 发 现 了 Ne10 的 更 多 内 部 细节 。 按 照 A.2.2 小 \ 
节 中 的 步骤 将 Ne10 编 译 成 功 之 后 ， 进 入 build 目 录 ， 可 以 看 到 该 目录 下 
0 目录 ， 分 别 是 android 目 录 、samples 目 录 和 modules 目 


1.android 目 录 


android 目 孙 下 是 编译 好 的 安 卓 平台 下 的 动态 so 库 ， 以 及 编译 过 程 
中 由 cmake 产 生 的 中 间 文 件 。 通 过 A.2.3 世 中 的 描述 ， 将 动态 库 
libNe10_test_demo.so 放 入 官方 Demo 工 程 中 并 运行 ， 可 以 得 到 对 比 测试 
的 结果 。 这 个 动态 库 的 源码 实际 上 是 Ne10 根 目录 中 的 android 目 录 下 jni 
中 的 代码 ， 而 jni 中 的 代码 使 用 的 是 Ne10 根 目录 下 的 test 目 录 下 的 测试 
case。 大 家 可 以 想 一 下 ， 这 个 编译 动态 库 的 过 程 其 实 与 绝 大 多 数 安 章 工 
程 编 译 动态 库 的 过 程 是 不 一 样 的 ， 因 为 大 部 分 开发 者 正常 编译 一 个 安 
日 工程 的 动态 库 使 用 的 是 ndk-build 命 令 。 


但 是 Ne10 的 构建 方式 不 是 使 用 ndk-build 这 个 脚本 ， 而 是 使 用 了 更 
加 通用 的 cmake。cmake 是 一 个 跨 平 台 的 构建 工具 ， 用 自己 的 描述 语言 
或 者 语法 可 以 生成 对 应 平台 的 Makefile (make 脚 本 ) 文件 。 开 发 者 不 建 


议 在 安 晶 平台 的 每 个 项 目 都 这 样 做 ， 因 为 Ne10 项 目 本 身 不 仅 是 安 卓 平 
台 的 项 目 ， 而 且 是 所 有 ARM 架 构 的 系统 都 可 以 使 用 的 开源 库 。 所 以 不 
同 的 应 用 场景 选择 不 同 的 解决 方案 ， 而 选择 cmake 是 NE10 的 最 佳 解决 
方案 。 而 对 于 Android 工 程 的 Native 代 码 的 构建 场景 ， 使 用 ndk-build 才 
是 最 佳 解决 方案 。 如 果 开 发 者 想 更 改 NE10Demo 的 测试 程序 ， 再 自己 集 
成 Nel0 之 后 的 性 能 测试 或 者 正确 性 测试 (当然 ，Ne10 的 作者 已 经 做 过 
了 这 些 测试 ,但 是 ， 由 于 构建 方式 的 不 同 ， 以 及 开发 者 的 工程 可 能 会 
有 比较 复杂 的 业务 逻辑 ， 所 以 自己 做 测试 在 所 难免 ， 开 发 者 可 以 修 
改 Ne10 项 目 目 录 中 的 android 一 NE10Demo 一 jni 目 录 下 的 源码 文件 
NE10_test_demo.c， 然 后 到 build 目 录 下 执行 make 命 令 ， 最 后 把 so 文件 搂 
贝 到 对 应 目录 中 编译 并 运行 安 卓 程序 。 当 然 ， 如 果 增 加 jni 函 数 也 要 相 
应 地 在 java 文 件 中 增加 native 方 法 的 声明 。 以 上 介绍 完了 andorid 日 录 下 
的 结构 ， 这 个 目录 主要 是 针对 Android 工 程 编 译 的 动态 so 库 ， 开 发 者 可 
以 更 改 对 应 的 源码 文件 ， 然 后 使 用 so 库 进 行 测试 。 


ndk-build 命 令 


ndk-build 命 令 是 一 个 脚本 ， 在 指定 的 NDK-ROOT 下 面 。ndk-build 
这 个 脚本 实际 上 会 检查 工程 当前 Application.mk 文 件 里 的 配置 选项 ， 包 
括 交 叉 编译 的 gcc 版 本 、APP-CFLAGS、APP-CPPFLAGS、 是 否 开 启 异 
利 及 Rtti 等 参数 。 当 然 ， 如 果 没 有 Application.mk 这 个 配置 文件 ，ndk- 
build 命 令 会 使 用 一 系列 默认 的 配置 。 自 和 完 ， 要 确定 使 用 的 gcc 版 本 以 及 
要 编译 的 目标 平台 ， 例 如 ， 我 们 使 用 gcc4.8 编 译 armv7-a 平 台 上 的 包 。 
然后 ，ndk-build 才 会 读 取 Android.mk 里 的 配置 ， 包 括 CFLAGS、 
LDEFLAGS、 源 码 文件 以 及 include 的 预 编 译 mk。 最 后 ， 进 行 编译 和 链 
接 。 无 论 是 Application.mk 还 是 Android.mk， 配 置 文件 中 指定 的 
CEFLAGS、LDEFLAGS 这 些 参数 的 默认 值 都 在 NDK 目 录 下 的 哪 一 个 文件 
中 指定 呢 ? 它们 都 存在 于 NDK ~toolchains 目 录 下 对 应 的 gcc 版 本 目录 中 
的 setup.mk 这 个 文件 中 ， 例 如 ， 当 使 用 的 gcc 版 本 为 4.9 的 时 候 ， 
setup.mk 所 在 的 目录 为 : $SNDK_ROOT/build/core/toolchains/arm-linux- 
androideabi-4.9 或 者 $NDK_ROOTVtoolchains/arm-linux-androideabi-4.9 。 


由 于 不 同 的 NDK 版 本 所 在 的 位 置 不 同 ， 当 ndk-build 脚 本 被 执行 的 
时 候 ， 可 以 根据 默认 配置 以 及 Android.mk 里 的 配置 构建 出 对 应 的 动态 库 
或 者 静态 库 或 者 二 进 制 的 可 执行 程序 。 


2.samples 目 孙 


从 samples 目 录 下 可 以 看 到 一 个 二 进 制 的 可 执行 文件 
NE10_samples_static， 我 们 可 以 将 这 个 文件 放 入 Android 手 机 上 ， 以 命 
令 行 工 具 的 方式 运行 它 。 首 先 找 一 台 root 了 的 手机 (只 有 获得 root 权 
限 ， 才 能 方便 直接 登入 系统 去 执行 这 个 命令 ) ， 再 利用 adb push 命 令 将 
这 个 二 进 制 文件 推送 到 sdcard 上 : 


adb push NE10_samples_static /mnt/sdcard/NE10_samples_static 
接着 使 用 adb shell 命 令 登 入 这 人 台 安 卓 设 备 : 
adb shell 


然后 将 上 一 步 从 电脑 推 入 的 二 进 制程 序 找 贝 到 /data/ 目 录 下 ， 并 增 
加 执行 权限 : 


su 
cp /mnt/sdcard/NE10_samples_static /data/ 
cd /data/ 

chmod 777 NE10_samples_static 


最 后 运行 以 下 这 个 二 进 制 命令 : 
./NE10_test_static 


如 有 条 没有 错误 ， 应 该 可 以 看 到 官方 二 进 制 Demo 的 测试 结 有 末 。 开 发 
者 可 以 修改 对 应 的 源码 文件 ， 然 后 执行 make 命 令 ， 生 成 新 的 二 进 制 文 
件 ， 将 新 的 二 进 制 文件 放 入 Android 设 备 中 ， 再 做 一 些 快速 测试 。 那 如 
何 修改 二 进 制 命令 对 应 的 源码 文件 呢 ? 站 先 切换 到 Ne10 的 根 目 好 下 ， 
然后 进入 samples 目 录 ， 束 可 以 修改 对 应 的 主 文件 或 者 单元 测试 的 文 
件 。 修 改 完毕 后 ， 再 回 到 build 目 孙 执行 make 命 令 ， 然 后 找到 最 新 的 二 
进 制 可 执行 程序 推送 到 安 旱 系统 内 部 ， 再 次 执行 就 可 以 看 到 修改 后 的 


效果 了 。 
在 平时 的 开发 过 程 中 ， 开 发 者 并 不 是 总 需要 安 卓 的 开发 环境 


(IDE) 才能 测试 Native 层 的 代码 ， 也 可 以 编译 二 进 制 的 可 执行 文件 来 
做 快速 测试 。 秘 诀 在 于 Android.mk 配 置 文件 的 最 后 一 行 ， 如 果 包 含 的 是 


shared library， 束 是 构建 动态 库 ， 而 包含 的 是 static library， 就 是 构建 静 
态 库 。 但 是 ， 如 果 包 含 的 是 execute library， 就 是 构建 二 进 制 可 执行 文 
件 。 而 包含 任何 一 个 变量 ， 都 是 一 个 预定 义 存在 于 NDK-ROOT 目 录 下 
的 一 个 文件 ， 路 径 为 ; 


$NDK_ROOT/build/core 


因此 如 果 想 用 ndk-build 编 译 一 个 二 进 制程 序 ， 就 在 Android.mk 文 件 
的 最 后 一 行 包 售 execute library 职 可 。 


3.modules 目 孙 


modules 目 录 中 有 一 个 静态 库 文件 libNE10.a， 该 文件 就 是 编译 好 的 
armv7-a 平 台 下 的 静态 库 。 开 发 痢 可 以 将 这 个 静态 库 作为 一 个 prebuilt 的 
静态 库 链 接 到 目 己 的 程序 中 ， 然 后 直接 执行 hdk-build 命 令 ， 就 可 以 编 
$e 了 。 但 是 这 里 有 可 能 会 出 现 一 个 编译 失败 的 问题 ， 错 误 

中: 


ld: error: jni/prebuilt/libNE10.a(NE10 fft_ generic float32.c.0) uses 
VFP register arguments, output does not 


根本 原因 在 于 Ne10 默 认 的 编译 选项 里 开局 了 便 浮 点 运算 ， 即 


-mfloat-abi=hard -mfpu=vfp3 


但 是 ，ndk-build 这 个 脚本 使 用 的 是 gcc 版 本 对 应 的 setup.mk 文 件 里 
的 编译 选项 和 链接 选项 ， 而 setup.mk 文 件 中 默认 的 选项 使 用 的 是 如 下 指 


令 


-mfloat-abi=softfp -mfpu=vfpv3-d16 


因此 ， 使 用 默认 的 编译 选项 是 不 对 的 ， 所 以 需要 在 Application.mk 
里 重新 指定 编译 选项 和 链接 选项 来 覆盖 掉 默 认 的 选项 配置 


APP_CPPFLAGS := -pie -mthumb-interwork -mthumb -march=armv7-a -mfloat-abi=hard 
-mfpu=vfp3 -Wl,--no-warn-mismatch -std=gnu99 -fPIC 


APP_CFLAGS := -pie -mthumb-interwork -mthumb -march=armv7-a -mfloat-abi=hard 
-mfpu=vfp3 -Wl,--no-warn-mismatch -std=gnu99 -fPIC 
APP_LDFLAGS := -mthumb-interwork -mthumb -march=armv7-a -mfloat-abi=hard 


-mfpu=vfp3 -Wl,--no-warn-mismatch -std=gnu99 -fPIC 


而 使 用 ndk-build 脚 本 编译 Native 代 码 时 ， 编 译 选 项 和 链接 选项 如 何 
查看 呢 ? 开发 者 仅 需 在 使 用 ndk-build 的 时 候 在 后 面 加 上 V=1 就 可 以 看 到 
编译 选项 和 链接 选项 ， 如 下 : 


ndk-build V=1 


执行 以 上 这 个 命令 后 ， 束 可 以 查看 编译 选项 和 链接 选项 是 否 古 我 
们 更 改 之 后 的 选项 了 。 


4. 软 浮 点 和 人 硬 浮 后 
上 上面 我 们 六 说 过 Ne10 的 编译 是 使 用 cmake 工 具 来 编译 的 ， 所 以 我 们 


须 正确 安装 cmake。 而 在 Ne10 的 默认 编译 选项 里 包含 了 对 浮 点 数 运 算 
的 选项 本 年 


-mfloat-abi=hard -mfpu=vfp3 


文 个 编译 选项 是 指 什 么 ? 其 实 是 这 样子 的 ， 在 gcc 的 编译 选项 中 ， 
mfloat-abi 参 数 可 选 值 有 三 个 ， 分 别 是 soft、softfp 和 hard， 解 释 如 下 。 


_ soft 是 指 所 有 浮 扣 运算 全 部 在 软件 层 实现 ， 效 率 不 高 ， 适 合 早期 没 
有 浮 点 计算 单元 的 ARM 处 理 峰 


刁 将 浮 点 计算 交 给 FPU 处 理 ， 但 函数 参 
数 的 传递 使 用 通用 的 整 型 寄存 偶而 不 是 FPU 寄 存 右 。 


-hard 则 使 用 FPU 浮 点 寄存 占 将 范 数 参数 传递 给 FPU 处 理 。 
需要 注意 的 是 ， 在 兼容 性 方面 ，soft 模 式 与 后 两 者 是 兼容 的 ， 但 


softfp 和 hard 两 种 模式 是 不 兼容 的 。 默 认 情 况 下 ， 在 Application.mk 里 会 
有 如 下 配置 : 


APP_ABI := armeabi-VvV7a 
NDK_TOOLCHAIN_VERSION = 4.9 


配置 会 使 用 NDK 中 4.9 版 本 的 gcc 编 谋 armv7-a 乎 台 下 的 包 。 当 直接 
使 用 Ne10 的 静态 库 进行 链接 的 时 候 ， 链 接 阶段 就 会 出 现 错误 : 


ld: error: jni/prebuilt/libNE10.a(NE10_fft_generic_ float32.c.0) uses 
VFP register arguments, output does not 


这 里 了 驶 是 libNE10.a 这 个 静态 库 文件 在 编译 阶段 使 用 的 编译 选项 中 
开启 了 便 浮 点 运算 ， 而 现在 使 用 ndk-build 肢 本 进 了 构建 的 时 候 使 用 的 
是 软 浮 点 ， 链 接 遇 到 了 不 同 的 输入 文件 类 型 就 报 送 上 述 错误 。 要 想 解 
决 这 个 问题 ， 可 以 将 APP_ABI 配 置 成 为 armeabi-v7a-hard: 


APP_ABI := armeabi-v7a-hard 


这 样 gcc 在 寻找 编译 选项 (setup.mk) 的 时 候 就 会 寻找 硬 浮 点 ， 
setup.mk 文 件 配置 如 下 : 


ifeq ($(TARGET_ARCH_ABI),armeabi-v7a) 
TARGET_CFLAGS += -mfloat-abi=softfp 
else 
TARGET_CFLAGS += -mhard-float \ 
-D_NDK_MATH_NO_SOFTFP=1 
TARGET_LDFLAGS += -Wl1,--no-warn-mismatch \ 
-lm_hard 
endif 


1 NDK 已 经 不 支持 armeabi-v7a-hard 的 模式 ， 所 以 我 
们 需要 配置 编译 选 型 和 链接 选项 ， 配 置 编译 选项 里 的 将 浮 点 预算 使 用 
硬 肖 点 的 fpu 是 为 了 下 确 你 正确 陆 ， 链 接 选 项 里 的 -W1，--no-warn- 
mismatch 是 为 了 告诉 链接 器 忽略 警告 ， 确 你 链接 成 功 ， 不 要 再 检查 输 
入 文件 的 格式 不 同 。 所 以 最 终 久 的 Application.mk 如 下 : 


APP_ABI := armeabi-v7ia 


APP_CPPFLAGS := -pie -mthumb-interwork -mthumb -march=armv7-a -mfloat-abi=hard 
-mfpu=vfp3 -Wl1,--no-warn-mismatch -std=gnu99 -fPIC 
APP_CFLAGS := -pie -mthumb-interwork -mthumb -march=armv7-a -mfloat-abi=hard 


-mfpu=vfp3 -W]1,--no-warn-mismatch -std=gnu99 -fPIC 
APP_LDFLAGS := -mthumb-interwork -mthumb -march=armv7-a -mfloat-abi=hard 


-mfpu=vfp3 -Wl,--no-warn-mismatch -std=gnu99 -fPIC 
NDK_TOOLCHAIN_ VERSION = 4.9 


运行 ndk-build 脚 本 ， 执 行 完 毕 后 若 没 有 错误 ， 就 完全 编译 好 了 这 
个 动态 库 。 有 的 读者 可 能 会 问 ， 是 如 何 找到 这 些 参数 的 呢 ? 其 实 ， 前 
面 所 讲解 的 三 个 日 录 下 都 有 一 个 CMakeFiles 目 录 ， 每 个 日 录 下 会 有 一 
个 XXXXX.dir 目 录 ， 这 个 目录 里 有 一 个 flags.make 及 link.txt， 这 两 个 文 
件 中 就 是 编译 和 链接 命令 及 其 携带 的 参数 。cmake 是 根据 自己 的 脚本 文 
件 中 的 配置 生成 这 些 参数 ， 但 在 这 里 找到 的 编译 选项 以 及 链接 选项 才 
是 最 终 的 选项 ， 就 像 使 用 ndk-build 脚 本 编译 ， 我 们 写 上 V=1 才 可 以 看 到 
中 间 过 程 编译 和 链接 的 选项 。 


还 有 一 种 方法 就 是 配置 Ne10 的 编译 选项 ， 使 用 软 浮 点 ， 束 需要 我 
们 在 执行 cmake 的 时 候 带 上 参数 ， 即 


cmake -DNE10_ARM_HARD_FLOAT=OFF 
-DCMAKE_TOOLCHAIN_FILE = ../android/android config.cmake .. 


这 时 编译 出 来 的 静态 库 就 是 使 用 软 浮 点 运算 的 了 ， 但 古 Ne10 的 作 
者 不 推荐 这 样 做 ， 因 为 这 样 一 方面 会 降低 效率 ， 居 一 方面 有 一 些 谍 编 
文件 里 的 代码 可 能 依赖 于 硬 译 点 的 运算 ， 这 有 可 能 会 造成 错误 。 


A.4 Nel10 提 供 的 Math 函 数列 表 


Nel10 提 供 的 Math 函 数列 表 如 下 : 


1) 浮 点 数组 加 ( 减 、 乘 、 除 ) 一 个 float 常 量 数值 放 入 目标 浮 点 数 
A 


2) 向 量 数组 〈 二 维 、 三 维 、 四 维 ) 加 ( 减 、 乘 、 除 ) 一 个 向 量 常 
量 放 入 目标 癌 量 数组 中 。 


3) 浮 点 数组 加 ( 减 、 乘 、 除 ) 另外 一 个 浮 点 数组 (按照 相同 的 
index 进 行 运算 ) 放 入 目标 浮 点 数组 中 。 


4) 回 量 数组 〈 二 维 、 三 维 、 四 维 ) 加 ( 减 、 乘 、 除 ) 另外 一 个 向 
量 数组 按照 相同 index 进 行 运算 ) 放 入 目标 向 量 数组 中 。 


5) 矩阵 (二 维 、 三 维 、 四 维 ) 与 矩阵 的 加 、 减 、 乘 、 除 。 
6) 矩阵 与 向 量 相 乘 。 

7) 浮 点 数组 都 设置 为 一 个 常量 。 

8) 浮 点 数组 绝对 值 。 


9) 一 个 音量 城 去 一 个 浮 点 数组 中 的 每 一 个 元 聚 放置 到 目标 译 点 数 
< 


10) 疝 量 第 量 减 去 一 个 同 量 数组 中 的 每 一 个 元 素 放置 到 目标 同 量 
数组 中 。 


。 了) 浮 点 数组 乘 以 常量 再 加 上 另外 一 个 浮 点 数组 (按照 index 进 
行 ) 放 入 目标 浮 点 数组 中 。 


12) 向 量 数组 乘 以 向 量 常 量 再 加 上 另外 一 个 向 量 数组 (按照 index 
进行 放 入 目标 向 量 数组 中 。 


“13) 浮 点 数组 乘 以 另外 一 个 浮 点 数组 (按照 index 相 乘 ) 再 加 上 一 
个 浮 点 常量 放 入 目标 浮 点 数组 中 。 


14) 回 量 数 组 乘 以 另外 一 个 向 量 数组 〈 按 照 mdex 相 乘 ) 再 加 上 一 
个 回 量 各 量 放 入 目标 风量 数组 中 。 


15) 矩阵 的 转 置 、 单 位 矩阵 运算 等 数学 运算 。 


A.5 FEFT 性 能 测试 


在 不 同 的 Android 平 台 手 机 上 做 测试 ，FEFT 的 结果 要 快 3 倍 左右 ， 有 
的 甚至 能 达到 5 倍 ， 所 以 效果 还 是 很 明显 的 。 测 试 样本 的 时 间 长 度 为 
10s， 采 样 频率 为 44100Hz， 双 声 道 的 的 PCM 先 做 FFT， 比 较 结 果 是 否 
与 MayerFFT 一 致 (平方 后 相 加 进行 浮 点 数 比 较 ， 相 差 在 0.0001 以 
内 ) ， 然 后 做 逆 FFT， 听 声音 是 否 正常 ， 如 果 没 有 问题 ， 代 表 结 果 是 正 
确 的 。 最 终结 果 的 正确 性 与 性 能 对 比 结果 如 表 A-1 所 示 。 
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附 邓 B 编码 如 的 使 用 细 市 


B.1 AAC 编 码 絮 的 使 用 细 届 


音频 的 编码 方式 有 很 多 种 ,日 前 最 为 流行 的 就 是 AAC 的 编码 格 
式 。 这 种 编码 格式 可 以 在 中 低 码 率 的 限制 下 编码 出 较 高 质量 的 音频 
流 。 目 前 ，AAC 的 规格 (Profile) 有 以 下 三 种 。 

.LC-AAC 编 码 规格 。 

.HE-AAC v1 编码 规格 。 

.HE-AAC v2 编码 规格 。 


这 三 种 规格 的 天 系 如 图 B-1 所 示 。 


The aacPlus audio codec family 


四 1 四 1 目 


aacPlus v1 


aacPlus v2 


图 B-1 
LC-AAC 的 Profile 是 最 基础 的 AAC 的 编码 规格 。 另 外 两 种 较为 高 级 
的 编码 规格 中 都 带 有 HE 字样 ，HE 的 全 称 是 High Efficiency， 翻 译 为 中 
文职 是 高 效 性 的 意思 。 


HE-AAC v1 〈 又 称 AACPlusV1，SBR) 使 用 容器 的 方法 实现 了 
AAC (LC) 和 SBR 技 术 ，SBR 代 表 Spectral Band Replication (频段 复 
制 ) 技术 。 音 乐 的 主要 频谱 虽然 集中 在 低频 段 ， 但 是 高 频 部 分 也 是 很 
重要 的 ， 因 为 高 频段 决定 了 整个 音乐 的 音质 。 对 全 频段 编码 ， 若 为 了 
保护 高 频段 ， 就 会 造成 低频 段 编码 过 细 而 导致 文件 巨大 ， 若 保存 了 低 
频 的 主要 成 分 而 失去 高 频 成 分 ， 吏 会 形 失 音质 。 这 也 是 LC 编 码 规格 的 
最 大 问题 ， 所 以 SBR 技 术 应 运 而 生 。SBR 把 频谱 切割 开 来 ， 低 频 单 独 编 
码 以 保留 主要 的 频谱 部 分 ， 高 频 单 独 放 大 编码 以 保留 首 质 ， 这 样 束 能 
保证 在 减 小 文件 大 小 的 情况 下 还 保存 了 音质 ， 完 美化 解 了 这 一 矛盾 。 


HE-AAC v2 编码 规格 也 使 用 容 句 的 方法 包含 HE-AAC v1 和 PS 技 
术 。PS 全 称 为 parametric stereo (参数 立体 声 ) ， 而 一 个 立体 声 文 件 的 
大 小 是 一 个 单 声 道 文件 的 两 倍 。 但 是 ， 两 个 声 道 的 声音 存在 某 种 相似 
性 ， 根 据 香 农 信息 信 编 码 定 理 ， 相 关 性 应 该 被 去 掉 才 能 减 小 文件 大 
小 。 所 以 PS 技术 存储 了 一 个 声 道 的 全 部 信息 ， 然 后 ， 论 很 少 的 字 市 用 
参数 描述 男 一 个 声 道 和 它 不 同 的 地 方 。 这 样 就 去 除了 两 个 声 道中 的 元 
余 信息 ， 在 音质 损失 很 小 的 情况 下 ， 进 一 步 减 小 了 文件 大 小 。 


LC-AAC、HE-AAC v1、HE-AAC v2 之 间 比 特 率 和 主观 质量 的 关系 
是 : 在 低 码 率 的 情况 下 ，HE-AAC v1、HE-AAC v2 编码 后 的 音质 要 明 
显 好 于 LC-AAC 的 。 


在 FFmpeg 义 档 中 设置 AAC 编 码 絮 的 Profile 有 如 下 描述 ， 文 持 LC- 
AAC 这 个 Profile 的 编码 器 有 ]libfdk_aac、1libfaac、1libvo_aac 以 及 aac 实 
现 ， 但 是 支持 HE-AAC 以 及 HE-AAC v2 的 仅 有 libfdk_aac 与 libaacplus。 
所 以 开发 者 要 想 在 FFmpeg 中 使 用 Profile 为 HE-AAC 以 上 的 AAC 编 码 
器 ， 只 能 使 用 libfdk_aac 或 者 libaacplus; 否则 ， 当 调用 FFmpeg 的 API 打 
开 编 码 絮 的 时 候 ， 会 收 到 “invalid AAC profile.” 的 错误 返回 值 。 


以 代码 的 方式 调用 FFmpeg 编 码 AAC 的 Profile 设 置 如 下 : 


AVCodecContext *encoder_ctx; 

encoder_ctx->codec_id = AV_CODEC_ID_AAC; 
encoder_ctx->sample_fmt = AV_SAMPLE_FMT_S16; 
encoder_ctx->profile = FF_PROFILE_AAC_HE， 

encoder = avcodec find_encoder_by_name("libfdk_aac"); 
avcodec_open2(encoder_ctx, encoder, NULL); 


了 使 用 ftmpeg 的 命令 行 工具 正常 编码 一 个 AAC 格 式 的 文件 命令 如 


ffmpeg -i source.wav -acodec libfdk _aac -b:a 64K target.m4a; 


上 述 命 令 默认 使 用 的 编码 规格 就 是 LC 的 编码 规格 。 那 如 何在 命令 
行 模式 下 调用 FFmpeg 编 码 AAC 的 Profile 设 置 呢 ? 命令 如 下 : 


ffmpeg -i source.wav 
-acodec libfdk aac -profile:a aac he -b:a 64K target.m4a; 


上 上述 命令 使 用 libfdk_aac 编 码 右 ， 使 用 HE-AAC v1 的 编码 规格 将 
source.Wav 编 码 为 码 率 是 64K 的 target.m4a 文 件 。 


ffmpeg -i source.wav 
-acodec libfdk_aac -profile:a aac he v2 -b:a 48K target.m4a; 


上 上述 命令 使 用 libfdk_aac 编 码 右 ， 使 用 HE-AAC v2 的 编码 规格 将 
source.Wav 编 码 为 码 率 是 48K 的 target.m4a 文 件 。 


将 编码 的 target.m4a 文 件 导 入 Praat 软 件 ， 用 频谱 图 来 分 析 首 质 。 下 
面 通过 码 率 为 48K， 分 别 以 LC、HE-AAC 以 及 HE-AAC2 这 三 种 不 同 的 
编码 规格 编码 音频 文件 ， 然 后 导入 Praat 软 件 ， 通 过 频 域 图 对 比 来 分 析 
音质 的 损失 ， 如 图 B-2 所 示 。 
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图 。B-2 


图 B-2 是 原始 声音 的 语 谱 图 ， 原 始 声 音 为 44100 的 采样 频率 ， 双 声 
道 的 声音 。 根 据 奈 奎 斯 特 采 样 定律 ， 频 融 分 布 到 22050， 所 以 全 频带 分 
布 的 截止 频率 就 是 22050。 对 于 这 个 声音 ， 我 们 使 用 比特 率 为 48Kbps， 
再 分 别 使 用 LC、HE-AAC 以 及 HE-AAC v2 来 编码 ， 然 后 观察 编码 之 后 
的 频带 分 布 。LC 编 码 规格 下 的 语 谱 图 如 图 B-3 所 示 。 
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图 B-3 所 示 的 束 是 LC Profile 编 码 之 后 的 语 详 图 ， 从 图 中 可 以 看 到 它 
的 频带 分 布 到 了 10kHz 就 被 截断 ， 对 于 高 频 部 分 影响 比较 大 。 接 着 看 以 


HE-AAC 编 码 规 格 编码 出 来 的 文件 的 语 谱 图 ， 如 图 B-4 所 示 。 


从 图 B-4 中 可 以 看 到 ，HE-AAC 编 码 出 来 的 文件 效果 要 比 LC 的 好 ， 
因为 它 的 截止 频率 约 到 了 16kHz 以 上 。 接 着 来 看 以 HE-AAC v2 编码 规格 
编码 出 来 的 文件 的 语 谱 图 ， 如 图 B-5 所 示 。 


从 图 B-5 可 以 看 到 ，HE-AAC Vv2 编 码 出 来 的 文件 效 末 最 好 ， 因 为 几 
乎 达到 了 全 频 市 履 兰 。 


我 们 以 FDK_AAC 为 例 来 看 看 各 个 Profile 下 推荐 的 码 率 跟 采样 率 以 
及 声 道 数 的 关系 ， 如 图 B-6 所 示 。 
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Audio Object Type Bit 0 Ee ig Rates les so Rate pr 
和 8000 -11999 |22.05,24.00 24.00 E 
[29] HE-AAC v2 12000 - 17999 |32.00 32.00 2 
{AAC LC + SBR + PS) 18000 - 39999 |32.00, 44.10, 48.00 44.10 2 

40000 - 56000 |32.00, 44.10, 48.00 48.00 2 
8000 -11999 |22.05, 24.00 24.00 1 
12000 - 17999 | 32.00 32.00 [四 
18000 - 39999 “|32.00. 44 .10, 48.00 44.10 上 . 
LE 40000 - 56000 ‘3200. 44.10, 48.00 48.00 1 
16000 - 27999 |32.00, 44.10, 48.00 32.00 2 
28000 - 63999 |32.00. 44.10, 48.00 44.10 2 
64000 - 128000 |32.00, 44.10, 48.00 48.00 2 
64000 - 69999 |32.00, 44.10, 48.00 32.00 5.5.1 
(5] HE-AAC 70000 - 159999 |32.00, 44.10, 48.00 44.10 |5,5.1 
{AAC LC + SBR) 160000 - 245999 |32.00, 44.10, 48.00 48.00 5 
160000 - 265999 |32.00, 44.10, 48.00 48.00 5.1 
8000 -15999 |11.025, 12.00, 16.00 12.00 1 
16000 - 23999 |16.00 16.00 1 
el 24000 31999 1600. 22.05, 24.00 24.00 L 
32000 - 55999 ”|32.00 32.00 1 
56000 - 160000 |32.00, 44.10, 48.00 44.10 上 E 
160001 - 288000 48.00 48.00 1 
16000 - 23999 |11.025, 12.00, 16.00 12.00 2 
24000 - 31999 ”|16.00 16.00 2 
32000 - 39999 |16.00, 22.05, 24.00 22.05 2 
(2] AAC LC 40000 - 95999 132.00 32.00 2 
96000 - 111999 |32.00, 44.10, 48.00 32.00 2 
112000 - 320001 |32.00, 44.10, 48.00 44.10 lz 
320002-576000 4800 48.00 | 
160000 - 239999 32.00 32.00 5,5.1 
[2] AAC LC 240000 - 279999 |32.00, 44.10, 48.00 32.00 5,5.1 
280000 - 800000 |32.00, 44.10, 48.00 44.10 5,5.1 


图 B-6 


AAC 编 码 需 的 编码 规格 至 此 就 讲解 完毕 了 。 对 于 解码 端 来 讲 ，LC 
Profile 是 兼容 性 最 好 的 编码 规格 。 读 者 可 以 按照 目 己 的 应 用 场景 去 设置 
适合 的 码 率 与 编码 规格 。 


B.2 FFmpeg 中 使 用 libx264 的 码 率 控制 


libx264 是 一 个 H.264/MPEG4 AVC 编 码 器 ， 对 于 普通 用 户 ， 通 常 有 
两 种 码 率 控 制 模 式 : crf 模 式 和 ABR 模式 。 码 率 控制 就 是 一 种 决定 为 每 
个 视频 帧 分 配 多 少 比 特 数 的 方法 ， 它 将 决定 文件 大 小 和 质量 的 分 配 。 


B.2.1 ”crf 模式 


crf 的 全 称 是 Constant Rate Factor， 这 种 模式 可 以 允许 在 输出 的 文件 
不 太 重 要 的 时 候 ， 而 达到 特定 的 视频 质量 。 这 种 编码 模式 的 优点 是 ， 
提供 了 最 大 的 压缩 效率 ， 每 一 帧 可 以 按照 要 求 的 视频 质量 去 决定 它 需 
要 的 比特 数 ; 这 种 编码 模式 的 缺点 是 ， 不 能 计算 规定 时 间 长 度 的 视频 
文件 的 具体 大 小 ， 或 者 准确 控制 输出 码 率 。 下 面 我 们 来 看 具体 的 使 用 


步骤 。 
| 


crf 值 是 描述 视频 质量 的 一 个 量化 值 ， 取 值 范 围 为 0~51， 其 中 0 为 
无 损 模 式 ，23 为 默认 值 ，51 代 表 最 差 质 量 。 该 数字 越 小 ， 图 像 质量 越 
好 。 从 主观 上 讲 ，18 一 28 是 一 个 合理 的 范围 。18 往 往 被 认为 从 视觉 上 
看 是 无 损 的 ， 它 的 输出 视频 与 输入 视频 几乎 一 样 或 者 相差 无 几 。 但 从 
技术 角度 来 讲 ， 它 依然 是 有 损 压 缩 。 若 crf 值 加 6， 输 出 码 率 大 概 减少 一 
半 ; 若 crf 值 减 6， 输 出 码 率 翻 倍 。 通 常 ， 在 保证 可 接受 视频 质量 的 前 提 
下 选择 一 个 最 大 的 crf 值 ， 如 果 输 出 视频 质量 很 好 ， 可 以 海 试 一 个 更 大 
的 值 来 降低 视频 文件 的 大 小 ;如果 视 频 质量 看 起 来 很 糟 ， 可 以 尝试 一 
Ri 
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预 设 (preset) 是 一 系列 参数 的 集合 ， 这 个 集合 使 得 编码 器 能 够 在 
编码 速度 和 压缩 率 之 间 做 出 权衡 。 同 等 视频 质量 下 ， 一 个 编码 速度 稍 
慢 的 预 设 会 提供 更 高 的 压缩 率 〈 压 缩 率 是 以 文件 大 小 来 衡量 的 ) 。 换 
言 之 ， 要 想得到 一 个 指定 大 小 的 文件 或 者 采用 恒定 比特 率 编码 模式 ， 
开发 者 可 以 采用 一 个 较 慢 的 预 设 来 获得 更 好 的 质量 。 如 有 果 不 需要 考虑 
时 间 ，x264 建 议 开发 者 使 用 最 慢 的 预 设 。 目 前 ，x264 中 所 有 的 预 设 按 
照 编码 速度 降序 排列 为 : ultrafast、superfast、veryfast、faster、fast、 
medium、slow、slower、veryslow、placebo， 默 认 预 设 为 medium 。 开 发 
者 可 以 使 用 --preset 来 查看 预 设 列表 ， 也 可 以 通过 x264--fullhelp 来 查看 预 
设 所 采用 的 参数 配置 。 


开发 者 还 可 以 基于 输入 内 容 的 独特 性 通过 使 用 --tune 来 改变 参数 设 
置 。 当 前 的 tune 包 括 film 、animation 、grain 、stillimage 、psnr 、ssim 、 
fastdecode、zerolantency。 假 设 你 的 输入 内 容 为 动画 ， 则 可 以 使 用 
animation， 或 者 你 想 你 留 纹 理 ， 束 用 grain。 如 果 你 不 确定 使 用 哪个 先 
项 或 者 你 的 输入 与 所 有 的 tune 丝 不 匹配 ， 则 可 以 忽略 --tune 选 项 。 你 可 
以 使 用 --tune 来 查看 tune 列 表 ， 也 可 以 通过 x264--fullhelp 来 查看 tune 所 采 
用 的 参数 配置 。 


最 后 一 个 可 选 的 参数 是 --profile， 这 个 参数 决定 编码 器 到 底 使 用 哪 
一 种 H.264 的 编码 规格 (profile) 来 编码 视频 ， 当 前 所 有 profile 包 括 
baseline、main、high、high10、high422、high444， 注 意 使 用 --profile 选 
项 和 无 损 编 码 是 不 兼容 的 。 


如 下 所 示 ， 作 为 一 种 快捷 方式 ， 你 可 以 通过 不 声明 preset 和 tune 的 
内 容 来 让 ffmpeg 罗 列 所 有 可 能 的 内 部 preset 和 tune， 如 下 : 


ffmpeg -i input.flv -c:v libx264 -preset -tune output.mp4 


执行 上 述 指令 ， 可 以 得 到 如 下 结 末 : 


[libx264 @ Ox7f9ff8000600] Error setting preset/tune -tune/(null). 

[libx264 @ 0x7f9ff8000600] Possible presets: ultrafast superfast veryfast 
faster fast medium slow slower 
veryslow placebo 

[libx264 @ Ox7f9ff8000600] Possible tunes: film animation grain stillimage psnr 

ssim fastdecode zerolatency 


3. 使 用 你 的 预 设 


一 旦 确定 了 预 设 ， 开 发 考 束 将 这 个 预 设 设置 给 编码 上 融 ， 以 便 让 编 
码 絮 按照 我 们 的 预 设 编 码 对 应 的 视频 流 。 授 下 来 将 使 用 x264 编 码 一 个 
视频 ， 我 们 使 用 一 个 比 普通 预 设 稍 慢 的 预 设 ， 这 样 可 以 得 到 比 默认 设 
置 稍 好 一 点 的 视频 质量 。 指 令 如 下 : 


ffmpeg -i input.flv -c:v libx264 -preset Slow -crf 22 -c:a copy output .mp4 


在 上 壕 指令 中 ， 使 用 编码 速度 为 low、crf 值 为 22 的 预 设 编 码 视频 
文件 中 的 视频 流 ， 而 音频 流 不 做 重新 编码 ， 直 接 重 新 Mux 到 新 的 输出 


视频 文件 中 。 
B.2.2 ABR 模式 

ABR 模式 更 注重 码 率 的 控制 ， 适 合 在 一 段 时 间 内 生成 固定 大 小 的 
视频 ， 而 不 太 注 重视 频 质 量 的 场景 。 假 如 输入 的 视频 时 长 是 5 分 钟 


(300 秒 ) ， 要 求 转 码 后 输出 文件 的 大 小 为 25MB， 比 特 率 的 计算 公式 
为 文件 大 小 除 以 时 长 ， 所 以 计算 出 比特 率 如 下 : 


25MB * 1024 * 8 / 300s = 683Kbps 


整体 文件 的 比特 率 为 683Kbps， 如 果 要 得 到 视频 流 的 比特 率 ， 则 需 
整体 文件 的 比特 率 减 去 音频 流 的 比特 率 。 音 频 的 比特 率 计算 如 


683kbps - 128kbps( 音 频 比 特 率 ) = 555kbps 


根据 上 述 计算 可 以 得 到 视频 流 的 比特 率 为 555Kbps， 然 后 使 用 命令 
行 工 具 ffmpeg 进 行 转 码 ， 命 令 如 下 : 


ffmpeg -i input.flv -c:v libx264 -preset medium -b:v 555k 
-c:a libfdkaac -b:a 128k -f mp4 output.mp4 


ABR 编 码 模式 提供 了 某 种 “运行 均值 ”的 目标 ， 终 极目 标 是 最 终 文 
件 大 小 匹配 这 个 “全 局 平均 ”数字 。 因 此 ， 如 果 编 码 絮 直到 大 量 码 率 开 
销 非 常 小 的 黑 帧 ， 它 将 以 低 于 要 求 的 比特 率 编码 。 但 是 ， 在 接 下 来 的 
几 秒 内 ， 非 墨 帧 它 将 以 高 质量 的 编码 方式 使 码 率 回 归 均 值 。 另 外 ， 可 
以 与 “max bit rate” 配 合 使 用 来 防止 码 率 的 波动 。 


开发 者 可 以 使 用 -x264opts 参 数 来 重 写 预 设 或 者 使 用 libx264 的 私有 
选项 ， 比 如 设置 关键 帧 的 指令 如 下 : 


ffmpeg -i input.flv -c:v libx264 
-X264-params keyint=30:min-keyint=30:;no-scenecut=1 
-acodec copy -f mp4 output.mp4 


上 述 指 令 设 置 天 键 贿 间 隔 为 30 帧 一 个 关键 师 ， 搂 下 来 设置 编码 大 
在 编码 过 程 中 不 适用 B 帧 ， 指 令 如 下 : 


ffmpeg -i input.flv -c:v libx264 
-X264-params keyint=30:min-keyint=30:no-Scenecut=1:bframes=0 
-acodec copy -f mp4 output .mp4 


还 有 一 种 编码 模式 是 大 家 经 常 提 及 的 ， 即 CBR 编 码 模式 ， 人 全称 是 
Constant Bit Rate。 事实 上 ， 根本 束 没 有 CBR 这 种 模式 ， 但 是 开发 者 可 
以 通过 补充 ABR 参数 “模拟 ”一 个 恒定 比特 率 设置 ， 比 如 : 


ffmpeg -i input.flv -c:v libx264 -b:v 500Kk 
-minrate 500k -maxrate 500k -bufsize 1500k output ,mp4 


在 上 述 代 码 中 ，-bufsize 是 一 个 “ 码 率 控制 缓冲 区 ”， 它 会 在 每 一 个 
有 用 的 1500k 视 频数 据 内 强制 你 所 要 求 的 均值 (此 处 为 4000k) ， 所 以 
我 们 会 认为 接收 闪 / 终 器 播放 需 会 缓冲 那么 多 的 数据 ， 因 此 在 这 个 数据 
内 部 波动 是 没有 问题 的 。 当 然 ， 如 果 只 有 墨 帧 或 者 空白 帧 ， 它 所 人 花费 
的 比特 率 将 少 于 需求 的 比特 率 。 


还 有 一 种 经 常 使 用 的 最 大 比特 率 的 arf 模式 ， 它 是 通过 声明 -crf 和 - 
maxrate 参 数 来 设置 最 大 比特 率 的 ， 比 如 : 


ffmpeg -i input.flv -c:v libx264 -crf 20 -maxrate 600k -bufsize 1800k output ,mp4 


这 会 有 效 地 将 crf 值 锁定 在 20， 但 是 ， 如 果 输 出 码 率 超 过 600Kbps， 
这 种 情况 下 编码 器 会 将 质量 降 到 低 于 crf 20。1libx264 中 还 有 一 种 对 于 延 
述 的 设置 ， 即 -tune zerolatency， 这 个 设置 可 以 有 效 降 低 编码 的 延迟 输 
出 ， 在 直播 以 及 VOIP 场景 中 是 必须 设置 的 。 


最 后 一 点 要 考虑 的 驶 是 兼容 性 问题 。 如 果 想 让 你 的 视频 最 大 化 和 
目标 播放 设备 兼容 〈 比 如 老 版 本 的 ios 或 者 所 有 的 Android 设 备 ) ， 那 么 
可 以 这 做 : -profile: vbaseline 会 关闭 很 多 高 级 特性 ， 并 提供 很 好 的 兼 
容 性 。 常 用 的 编码 规格 还 有 Main 和 High， 与 AAC 的 编码 规格 类 似 ， 规 
格 越 高 ， 兼 容 性 越 兰 ， 同 时 在 更 低 码 率 下 编码 出 来 的 视频 质量 会 
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下 面 看 看 在 代码 层面 如 何 调用 FFmpeg 的 API 去 设置 libx264 的 预 设 
以 及 参数 ， 代 码 如 下 : 


AVCodecContext* pCodecCtx; 
pCodeccCtx->max_b_frames = 0; 


上 述 代 码 表 明 是 否 使 用 b 帧 ， 设 置 为 0， 代 表 不 使 用 B 帧 ;设置 为 
3， 代 表 1 个 gop 之 内 使 用 3 个 B 帧 。 


av_opt_set(pCodecCtx->priv_data, "preset", "superfast", 0); 
av_opt_set(pCodecCtx->priv_data, "crf", "20", AV_OPT_SEARCH_CHILDREN); 


上 上 述 代码 相当 于 命令 行 模式 下 的 设置 预 设 和 crf 。 


pCodecctx->flags |= CODEC_FLAG QSCALE; 
pCodecCtx->qmin = 10; 
pCodecCtx->qmax = 30; 


上 述 代 和 码 利用 qscale 参 数 来 设置 视频 质量 ，qscale 是 以 <q> 质 量 为 基 
础 的 VBR 编 码 模式 ， 取 值 范 围 为 0.01~255， 值 越 小 ， 质 量 越 好 ， 即 - 
qscale 4 和 -qscale 6 比较 的 话 ，4 的 质量 比 6 的 好 。 该 参数 使 用 次 数 较 多 ， 
实际 使 用 时 发 现 ，qscale 是 一 个 固定 量化 因 于 ， 设 置 qscale 之 后 ， 前 面 
设置 的 -b 束 无 效 了 ， 而 是 目 动 调整 了 比特 率 。-qmin q 表 示 最 小 视频 量 
化 标 度 (VBR) 设 定 最 小 质量 ， 与 -qmax 〈 设 定 最 大 质量 ) 共用 ，- 
qmax gd 表示 最 大 视频 量化 标 度 (VBR) ， 使 用 该 参数 ， 就 可 以 不 使 
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qscale 参 数 。 


附 永 C ”视频 的 表示 与 编码 


真正 的 高 手 是 不 会 因为 语言 的 限制 (C 语 言 中 没有 类 、 接 口 、 继 和 承 
等 特性 ) 而 写 出 一 个 不 可 维护 的 系统 ， 而 是 会 依据 所 使 用 语言 的 目 身 
等 性 去 设计 并 实现 出 一 个 可 扩展 性 与 可 维护 性 民 好 的 系统 。 所 以 语言 
不 重要 ， 对 编程 思想 的 认识 才 是 最 重要 的 。 本 附录 会 和 读者 分 享 视频 
蚜 表 示 格 式 的 演进 以 及 编码 如 十 如 何 工作 的 。 


C.1 视频 巾 的 表示 格式 


如 琳 一 张 图 片 使 用 RGBA 格 式 来 表示 ， 并 且 每 一 个 通道 都 使 用 一 个 
字 世 来 作为 它 的 精度 表示 ， 那 么 一 个 像素 就 需要 占用 四 个 字 节 ， 一 张 
宽度 为 720 像 素 、 长 度 为 1280 像 素 的 图 片 所 占用 的 空间 大 小 为 : 


1280 * 720 * 4 = 3.515625MB 


如 果 一 个 视频 的 帧 率 (fps) 为 24fps， 长 度 为 5 分 钟 ， 那 么 这 个 视 
频 用 RGBA 原 始 格式 表示 ， 所 占用 的 大 小 为 : 


3.515625MB * 24 * 5 * 60 = 24.726 


一 个 时 长 为 5 分 钟 的 720P 的 视频 若 占 用 这 么 大 的 空间 ， 显 然 在 存储 
以 及 网 络 传输 方面 会 有 非常 大 的 问题 。 如 果 在 没有 任何 压缩 的 情况 
下 ， 使 用 这 种 格式 表示 视频 ， 是 肯定 不 能 接受 的 。 如 果 仅 使 用 完全 无 
损 的 数据 压缩 算法 ， 比 如 DEFLATE (在 PKZIP、Gzip 和 PNG 中 使 
用 ) ， 是 无 法 达到 我 们 需要 的 存储 与 带宽 需求 的 ， 所 以 我 们 要 找到 其 
他 方法 来 压缩 视频 。 


为 了 做 到 这 一 点 ， 数 字 视 频 的 开发 者 利用 人 类 眼睛 的 视觉 效果 来 
达到 有 要求， 包括 : 


.人 类 眼睛 对 亮度 的 敏感 度 远 远大 于 颜色 的 敏感 度 ; 


一段 视 频 中 包含 了 大 量 的 视频 帧 ， 而 相 邻 的 视频 帧 之 间 几 乎 没有 
任何 区 化 


一 帧 图 像 内 部 包含 了 许多 使 用 相同 或 相似 颜色 的 区 域 。 


第 二 点 指 的 是 当前 视频 帧 和 下 一 个 视频 帧 以 及 下 下 个 视频 帧 的 差 
距 几 乎 很 小 ， 所 以 可 以 公用 一 些 相同 的 部 分 ， 即 如 果 当 前 帧 存储 下 来 
之 后 ， 下 一 帧 和 下 下 帧 只 需要 存储 增 量 信息 或 者 变化 的 信息 就 可 ， 这 
可 以 达到 去 除 时 间 宛 余 的 目的 ;第 三 点 指 的 是 ， 如 果 把 一 帧 图 像 划分 
成 很 多 个 小 区 域 ， 那 么 有 许多 区 域 是 相同 的 ， 我 们 可 以 利用 相同 的 区 
域 仅 存储 一 份 的 策略 来 压缩 视频 帧 ， 以 达到 去 除 空 间 元 余 的 目的 。 而 
本 节 重 点 介绍 第 一 点 。 第 一 点 是 利用 人 的 眼睛 对 亮度 的 敏感 度 要 明显 
高 于 对 颜色 的 敏感 度 来 压缩 视频 的 。 首 先 用 一 张 图 片 来 验证 这 个 生理 
现象 ， 如 图 C-1 所 示 。 


图 C-1 


首先 请 读者 看 左边 的 图 片 ， 如 果 可 以 看 出 块 A 和 块 B 的 颜色 是 不 相 
同 的 ， 那 说 明 我 们 的 眼睛 是 没有 问题 的 。 再 看 右边 的 图 片 ， 在 块 A 和 块 
B 之 间 有 一 个 连接 器 ， 其 实 这 两 个 块 的 颜色 是 相同 的 。 那 为 什么 左边 的 
图 片 看 起 来 不 一 样 呢 ? 这 是 我 们 的 大 脑 在 捉弄 我 们 ， 大 脑 让 我 们 更 多 
地 关注 明亮 程度 而 不 是 颜色 。 所 以 我 们 一 旦 知道 人 类 眼睛 的 这 一 生理 
特点 (对 图 片 中 的 亮度 更 加 敏感 ) ， 就 可 以 党 试 利用 它 。 我 们 之 前 使 
用 RGBA 的 表示 格式 来 描述 一 帧 视频 帧 ， 但 是 也 有 其 他 的 表示 格式 ， 有 
一 种 表示 格式 将 亮度 (luminance) 与 色 度 (chrominance) 分 开 来 表 
示 ， 这 就 是 所 请 YCbCr 格 式 表 示 视 频 帧 的 方式 。 


YCbCr 颜 色 模 型 使 用 Y 通 道 表 示 亮 度 ， 使 用 两 个 颜色 通道 Cb ( 蓝 
程度 ) 与 Cr (红色 程度 ) 表示 色彩 。YCbCr 表 示 格 式 可 以 从 RGB 表示 
格式 中 派生 出 来 ， 当 然 也 可 以 转换 回 RGB 格 式 。 所 以 使 用 这 种 模型 ， 
也 可 以 创建 出 完整 的 彩色 图 像 ， 如 图 C-2 所 示 。 


Y (luma) U (chroma blue) V (chroma red) 


图 C-2 


有 些 人 可 能 会 说 ， 我 们 怎么 能 在 不 使 用 绿色 的 情况 下 生产 出 所 有 
的 颜色 呢 ? 为 了 回答 这 个 问题 ， 我 们 将 讨论 从 RGB 到 YCbCr 的 转换 。 
我 们 将 使 用 标准 的 BT.601 的 系数 ， 它 是 由 ITU-R 小 组 推荐 的 ， 第 一 步 是 
计算 luma， 并 符 换 RGB 值 。 


Y= 0.299R + 0.587G + 0.114B 


一 旦 有 了 亮度 值 ， 就 可 以 计算 出 Cb 和 Cr 的 值 了 ， 计 算 公 式 如 下 : 


cb = 0.564(B - Y) 
cr = 0.713(R - Y) 


我 们 也 可 以 从 YCbCr 转 换 为 RGB 的 格式 ， 甚 至 可 以 得 到 绿色 ， 计 
算 公式 如 下 


+ 1.402Cr 
+ 1.772Cb 
- 0.344Cb - 0.714Cr 


既然 YCbCr 这 种 表示 格式 天 然 地 将 亮度 信息 和 色 度 信息 分 开通 首 
存储 了 ， 那 么 我 们 可 以 利用 人 类 眼睛 对 亮度 信息 更 加 敏感 这 一 特性 来 
对 色 度 信息 进行 降 采样 处 理 ， 如 图 C-3 所 示 。 


图 C-3 这 种 表示 格式 也 就 是 大 家 最 常 使 用 的 YUV420P 的 表示 格式 ， 
一 般 在 YCbCr 的 表示 格式 中 常 分 为 三 部 分 来 表达 ， 即 a x: y， 这 就 定 
义 了 a*2 个 像素 中 的 亮度 与 色 度 的 关系 。 比 如 ，YUV444 代 表 色 度 信 息 
不 经 过 任何 的 降 采 样 处 理 ， 也 称 为 无 压缩 的 YUV 格 式 ， 而 格式 YUV420 
不 是 不 需要 V 通 道 ， 而 是 每 八 个 像素 有 两 个 U 和 两 个 V， 如 图 C-4 所 示 : 
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这 样 1280x720 的 一 帧 视频 帧 所 占 的 存储 容量 计算 如 下 : 


1280 * 720 * 1.5 = 1.3184MB 


而 YUV 的 表示 格式 的 出 现 也 是 为 了 彩色 电视 机 可 以 兼容 黑白 电视 
机 的 一 种 实现 方案 ， 即 黑白 电视 仅 需要 使 用 Y 通 道 的 数据 ， 就 可 以 显示 
出 所 需要 的 效果 。 


视频 帧 虽然 使 用 YUV 格 式 来 表示 ， 但 是 最 终 泻 染 到 屏幕 上 的 还 是 
以 RGB 的 形式 演 染 上 去 的 ， 因 为 无 论 任何 设备 的 屏幕 都 是 由 无 数 个 
RGB 的 了 于 像 标 点 来 呈现 图 像 的 像素 的 ， 如 图 C-5 所 示 。 


图 C-5 


如 果 使 用 CPU 将 每 一 帧 视频 帧 从 YUV 格 式 转换 为 RGB 格式 再 去 洽 
染 到 屏幕 上 ， 效 率 通 党 都 会 非常 低 。 而 使 用 OpenGL ES 将 YUV 泻 染 成 
为 RGB 无 疑 是 效率 比较 高 的 一 种 方式 ， 要 想 完 成 使 用 OpenGL ES 转换 
YUV， 第 一 步 束 是 要 把 YUV 上 传 到 显卡 中 的 一 个 已 知 纹理 上 去 。 在 上 
传 之 前 ， 有 一 个 对 齐 像 素 字 市 的 画 数 需要 调用 ，OpenGL ES 中 提供 了 
方法 原型 ， 如 下 : 


glPixelStorei(GLenum pname, GLint param); 


上 上 述 范 数 的 合 义 是 设置 像 双 存储 模式 ， 它 包含 有 了 两 个 参数 。 


:pname: 指定 要 被 设置 参数 的 符号 名 ， 以 枚 举 的 形式 定义 在 
OpenGL ES 中 ， 第 一 种 枚 举 类 型 是 GL_PACK_ALIGNMENT， 它 影响 将 
像素 数据 写 回 到 内 存 的 打包 操作 ， 对 glReadPixels 函 数 的 调用 产生 影 
响 ;， 第 二 种 枚 举 类 型 是 GL_UNPACK_ALIGNMENT， 它 影响 显卡 从 内 
存 读 到 的 像素 数据 的 解 包 操 作 ， 对 glTexImage2D 以 及 glTexSubImage2D 
函数 的 调用 产生 影响 。 


:param: 指定 为 相应 了 的 pname 类 型 设置 的 值 。 可 选 值 有 1、2、4 或 
8， 默 认 值 为 4， 该 值 用 于 指定 存储 器 中 每 个 像素 行 有 多 少 个 字 节 对 
齐 ， 对 齐 的 字 市 数 越 高 ， 系 统 优化 的 空间 就 会 越 大 ， 即 将 内 存 中 的 多 
个 字 贡 一 起 上 传 到 显卡 中 或 者 从 显卡 中 下 载 到 内 存 中 。 


在 实际 代码 中 ， 我 们 看 到 的 调用 可 能 如 下 : 


glPixelStorei(GL_UNPACK_ALIGNMENT, 1); 


比如 最 常见 的 YUV420P 格 式 中 YUV 的 比例 为 41:1， 即 每 四 个 像素 
用 4 个 Y、1 个 U 和 1 个 V 来 表示 ， 而 标清 分 辩 率 有 320x240 或 者 640x480 
(480P) ， 高 清 分 辨 率 一 般 是 1280x720 (720P) 或 者 1920x1080 
(1080P) 。 而 显卡 在 传输 数据 时 默认 为 4 字 节 对 齐 (param 默 认 值 为 
4) ， 也 就 是 对 像素 数据 按 4 字 节 对 齐 进行 存 取 。 所 以 显卡 更 偏向 于 每 
一 行 的 数据 量 是 4 的 整数 倍 〈 按 上 述 分 辩 率 来 看 恰好 是 比较 常见 的 ) 。 
所 以 为 了 更 高 的 存 取 效率 ，OpenGL 默 认 将 像素 数据 按 4 字 节 的 方式 传 


输 癌 显卡 。 这 在 常见 的 分 辩 率 下 都 没有 问题 ， 问 题 在 于 对 于 非 4 字 节 对 
齐 的 像素 数据 ， 第 一 行 的 最 后 一 次 打包 的 4 字 节 将 包括 第 一 行 的 结束 数 
据 部 分 和 第 二 行 开 始 的 数据 部 分 ， 当 然 致 命 的 不 是 在 这 里 ， 而 是 在 最 
后 一 行 ， 存 取 将 很 可 能 会 越界 。 为 了 防止 这 样 的 情况 发 生 ， 一 是 硬性 
把 像素 数据 延展 成 4 字 和 对 齐 的 〈 就 像 BMP 文 件 的 存储 方式 一 样 ) ; 二 
是 选择 绝对 会 造成 4 字 节 对 齐 的 颜色 格式 或 值 格式 (GL_RGBA， 或 者 
GL_INT、GL_FLOAT 之 类 的 表示 格式 ) ; 三 是 以 牺牲 一 些 存 取 歼 率 为 
代价 ， 去 更 改 OpenGL 的 字 节 对 齐 方 式 ， 将 param 值 设置 为 1° 所 以 ， 要 
想 提 高 效率 ， 尽 量 保 证 每 一 行 的 U 或 者 V 是 4 的 整数 倍 。 但 是 ， 如 果 出 
现 奇 酷 的 分 辩 京 ， 比 如 420x314， 每 一 行 的 Y 通 道 是 420 个 值 ， 除 以 4 是 
可 以 除 尽 的 ， 但 是 每 一 行 的 U 或 者 V 仅 有 105 个 值 ， 就 不 再 是 4 的 整数 倍 
了 ， 这 种 情况 下 ， 如 果 不 去 设置 对 齐 方式 ， 就 有 可 能 出 现 Crash 或 者 出 
现 颜 色 混 乱 的 问题 。 解 决 办 法 是 让 字 节 对 齐 方 式 从 默认 的 4 字 节 对 齐 改 
成 1 字 贡 对 齐 (选择 1， 无 论 分 辩 率 怎样 ， 都 是 绝对 不 会 出 问题 的 ， 但 
aa 
A 人 \: 


int framewidth = frame->width; 

int frameHeight = frame->height,; 

if(frameWidth % 16 != 0){ 
glPixelStorei(GL_UNPACK ALIGNMENT, 1); 


上 述 代 码 可 以 作为 通用 解决 问题 的 方法 ， 即 当 宽 度 是 16 的 整数 倍 
的 时 候 ， 就 不 去 做 任何 设置 ， 以 默认 的 4 字 节 对 齐 作 为 对 齐 方式 ， 为 什 
么 是 16 呢 ? 因为 像素 数目 除 以 4 是 U 或 者 V 的 数目 ， 再 保证 以 4 字 节 对 
齐 ， 所 以 就 是 16 了 。 当 不 是 16 的 整数 倍 的 时 候 ， 束 需要 设置 1 字 节 对 齐 
的 方式 作为 对 齐 方式 。 


C.3 ”编码 器 的 工作 编码 原理 


前 面 介 绍 了 为 了 让 视频 可 以 存储 到 硬盘 以 及 可 以 满足 网 络 传输 ， 
不 仅 需 要 利用 人 类 眼睛 的 生理 特点 将 RGB 表示 格式 换 为 YUV420P 格 式 
来 表示 (虽然 这 将 存储 大 小 减 小 了 一 半 ) ， 还 应 该 使 用 有 损 的 压缩 方 
式 ， 将 YUV420P 的 原始 数据 压缩 到 更 小 。 前 面 还 介绍 过 有 两 种 方式 可 
以 压缩 视频 原始 数据 : 一 是 去 除 时 域 上 的 见 余 信息 ; 二 是 去 除 单 张 视 
频 幅 的 空间 元 余 信 息 。 那 这 两 部 分 工作 也 是 编码 器 工作 的 重点 ， 本 方 
就 来 介绍 这 两 部 分 的 通用 实现 手段 ， 但 是 在 不 同 的 编码 器 中 实现 的 方 


式 又 有 所 不 同 ， 编 码 出 来 的 视频 质量 以 及 性 能 消耗 也 是 不 同 的 ， 而 性 
能 和 质量 也 十 开发 首选 用 编码 名 的 衡量 指标 。 


C.3.1 帧 类 型 介绍 


在 莹 试 消除 元 余 信 息 〈 不 论 是 时 间 的 元 余 信 息 还 是 空间 的 元 余 信 
息 ) 之 前 ， 我 们 先 来 统一 一 下 术语 。 假 设 有 一 个 帧 率 (fps) 为 30fps 的 
电影 ， 图 C-6 是 前 四 帧 的 内 容 。 


殉 罗 过 家 


图 C-6 


在 这 四 帧 视频 帧 中 ， 我 们 可 以 看 到 大 量 的 重复 信息 ， 比 如 蓝 色 的 
百 景 ， 它 在 第 一 帆 到 第 四 帧 中 并 没有 任何 变化 。 为 了 消除 这 些 元 余 信 
恩 ， 我 们 可 以 将 视频 帧 的 类 型 抽象 为 三 种 类 型 。 


I 帧 


帕 古 一 个 仅 包含 当前 帧 信息 的 视频 帧 类 型 ， 所 以 它 叉 伞 称 为 参考 
帧 、 关 键 帧 。 在 解码 过 程 中 ， 它 不 需要 依赖 任何 帧 丈 可 以 被 解码 出 
来 ， 一 个 1 巾 看 起 来 和 一 张 静 态 图 片 非常 类 似 ， 视 频 流 或 者 视频 文件 中 
第 一 帧 通常 古 1 帧 ， 并 且 会 定期 在 其 他 巾 类 型 中 间 插 入 I 帧 。 


.P 帧 


P 帧 是 前 加 参考 帆 ， 可 以 使 用 前 面 的 [ 凑 与 P 帆 来 至 现 出 当前 的 视频 
帧 ， 这 也 是 解码 需 的 解码 规则 ， 例 如 和 独 C-6 中 第 二 帧 视频 帧 与 第 一 帧 视 
频 帧 的 变化 只 走 球 同 石 前 方 移动 了 ， 所 以 我 们 可 以 基于 第 一 帆 视 频 帧 
来 摘 述 变化 部 分 的 内 容 作 为 第 二 帧 视频 帧 的 内 容 ， 这 样 第 二 帧 视频 帧 
所 占用 的 空间 就 会 大 大 减 小 。 


:B 帧 
相 较 于 P 帧 仅 参 考 前 面 的 视频 帧 内 容 ，B 帧 又 增加 了 对 后 边 视频 帧 


的 参考 ， 这 样 可 以 提供 更 好 的 压 缮 。 但 是 ， 这 对 于 编码 万 来 说 ， 计 算 
量 增 大 的 同时 ， 也 增加 了 编码 输出 的 延迟 时 间 (因为 需要 参考 后 续 过 


来 的 视频 帧 ) ， 所 以 在 一 些 实时 性 要 求 较 高 的 场景 下 (比如 电话 会 
议 ) 通常 不 使 用 B 帧 。 


这 些 帧 类 型 共同 组 成 了 一 个 完整 的 视频 ， 如 图 C-7 所 示 。 


I-frame P-frame B-frame I-frame 


图 C-7 


如 果 仅 从 存储 或 者 网 络 带 宽 角 度 来 衡量 ， 我 们 可 以 认为 ! 帧 是 最 昂 
贵 的 ，P 帧 会 便宜 一 些 ，B 帧 则 最 便宜 。 


C.3.2 ”消除 时 间 的 元 余 信息 
本 厄 我 们 一 块 来 讨论 如 何 消除 视频 帧 在 时 间 上 的 元 余 信息 ， 比 较 


成 熟 的 技术 就 是 帧 间 预 测 技术 (inter-frame prediction) 。 我 们 先 来 看 图 
C-8 的 两 帧 视频 帧 。 
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图 C-8 


我 们 将 去 除 时 间 上 的 元 余 信 息 来 达到 使 用 更 少 的 字 节 存储 这 两 帧 
视频 帧 的 目的 ， 目 然 想到 的 束 是 将 这 两 帧 视频 帧 做 减法 ， 求 出 diff 值 ， 
就 是 我 们 要 进行 编码 的 东西 ， 如 图 C-9 所 示 。 

其 实 还 有 一 种 更 好 的 方法 可 以 使 用 更 少 的 比特 数 来 存储 第 二 帧 视 
频 帧 的 内 容 。 首 先 ， 我 们 将 每 一 帧 视频 帧 (frame_0) 分 为 很 多 个 间 
分 ， 然 后 将 这 两 帧 视频 帧 中 的 每 一 部 分 进行 匹配 ， 这 种 算法 我 们 可 以 
看 成 是 运动 信 计 ， 如 图 C-10 所 示 。 
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图 。C-10 


从 第 一 帧 变化 到 第 二 帧 的 过 程 中 ， 我 们 可 以 估计 第 一 帧 视频 帧 中 
的 黑色 球 从 点 (x=0，y=25) 到 点 (x=7，y=26) ， 而 x 和 y 组 成 的 值 的 
集合 就 称 为 运动 向 量 。 我 们 可 以 更 进一步 来 节省 编码 内 容 ， 即 仅 对 这 
两 帧 之 间 的 运动 天 量 差 进行 编码 ， 所 以 最 终 运动 天 量 是 x=6 (6-0) ， 
y=1 (26-25) 。 当 然 ， 在 真实 的 编码 过 程 中 ， 图 中 的 小 球 会 划分 为 N 个 
部 分 ， 我 们 把 它 划 分 为 一 部 分 只 是 为 了 更 加 方便 理解 。 所 以 ， 当 应 用 
了 运动 估算 算法 之 后 ， 编 码 的 数据 要 比 人 简单 地 计算 Diff 值 再 进行 编码 的 
数据 要 少 得 多 。 


其 实 可 以 使 用 fftmpeg 命 令 行 工 具 来 看 到 一 个 视频 的 分 块 情况 ， 命 令 
[下 : 


ffmpeg -debug vis mb_type -i Input.mp4 output ,mp4 


这 样 去 播放 output.mp4 文 件 ， 就 可 以 看 到 视频 的 分 块 情况 。 当 然 ， 
也 可 以 直接 使 用 ffplay 播 放 分 块 的 视频 ， 命 令 如 下 : 


ffplay -debug vis mb_type input.mp4 


还 可 以 使 用 fftmpeg 工 具 来 查看 运动 天 量 的 情况 ， 命 令 如 下 : 


ffplay -flags2 +export_mvs -vf codecview=mv=pf+bf+bb input.flv 


至 此 ， 时 间 宛 余 信 息 可 以 利用 运动 估计 算法 给 消除 掉 。 之 所 以 可 
以 使 用 运动 估计 ， 需 要 一 个 帧 作为 参考 帧 ， 也 就 是 了 顶 。 那 么 项 是 如 何 
进行 压缩 的 呢 ? 这 下 是 接 下 来 我 们 要 讲解 的 空间 风 余 信息 的 消除 放 
人 
C.3.3 至 间 的 元 余 信息 消除 
在 一 帧 视频 帧 中 ， 我 们 可 以 看 到 大 量 的 重复 信息 ， 如 图 C-11 所 


不 


图 CC-11 


图 C-11 中 可 以 看 到 有 大 量 的 监 色 和 日 色 ， 如 果 这 是 一 帧 f 帧 的 话 ， 
下 无 法 使 用 帆 则 预测 技术 来 压缩 它 。 因 此 ， 我 们 要 采用 其 他 办 法 来 压 
缩 这 张 图 片 ， 因 为 它 的 重复 信息 比较 多 ， 如 图 C-12 所 示 。 


如 图 C-12 所 示 ， 我 们 将 对 标 出 来 红色 块 部 分 进行 编码 ， 还 可 以 根 
据 红 色 块 周转 的 颜色 来 预测 当前 部 分 的 颜色 值 ， 比 如 可 以 预测 帧 将 继 
续 垂 直 传 播 颜 色 ， 这 意味 着 未 知 像素 的 颜色 将 保持 其 邻居 的 值 ， 如 图 


C-13 所 示 。 
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图 C-12 


但 是 我 们 的 预测 也 有 可 能 是 错误 的 ， 所 以 需要 使 用 另外 一 项 技 
术 ， 即 帧 内 预测 技术 。 使 用 真正 的 值 减 去 预测 的 值 ， 可 以 得 到 一 个 更 
容易 不 压缩 的 矩阵 ， 如 图 C-14 所 示 。 
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图 C-14 


帧 内 预测 技术 使 得 空间 压缩 变 成 现实 。 编 码 器 还 需要 使 用 量化 、 
炉 编 码 等 步 又 共同 来 编码 出 最 终 的 视频 。 如 果 读 者 有 兴趣 了 解 更 多 的 
内 部 细节 ， 可 以 参考 libx264 的 官方 文档 。 


